有没有人有建议可以在哪里找到在小语料库中使用的日常英语文本的档案或集合?我一直在使用Gutenberg Project书籍来制作一个工作原型,并且希望能够融入更多当代语言。 A recent answer这里间接指向了一个伟大的archive of usenet movie reviews,这在我看来并没有发生,而且非常好。对于这个特定的程序,技术性的usenet档案或编程邮件列表会倾斜结果并且难以分析,但是任何类型的一般博客文本或聊天记录或任何可能对其他人有用的东西都会非常有帮助。此外,非常感谢部分或可下载的研究语料库,这些语料不太明显,或者寻找维基百科文章的适当子集或任何其他想法的启发式方法。 (顺便说一句,我是一个很好的公民,不需要在托管这些资料的服务器上使用一个故意缓慢的脚本,以防万一你意识到道德风险并指向我一些巨大的东西)。NLP:建筑(小)语料库,或“在哪里得到许多不太专业的英语文本文件?”
UPDATE:用户S0rin指出,维基百科请求不抓取,并提供this export tool来代替。 Gutenberg项目有一个指定的政策here,底线,尽量不要抓取,但是如果你需要:“配置你的机器人在请求之间等待至少2秒”。
更新2由于指出了他们的回答者,维基百科的转储是一条路。我最终从这里使用了英文版本:http://download.wikimedia.org/enwiki/20090306/,以及大约一半大小的西班牙文转储。他们是一些清理工作,但非常值得,并且在链接中包含大量有用的数据。
这是非常有用的,谢谢 – unmounted 2008-09-26 08:59:52
此外,4000万字是理想的大小,而我一直使用到现在为止,Europarl数据是完美的。 – unmounted 2008-09-26 09:05:49