2008-09-26 17 views
5

有没有人有建议可以在哪里找到在小语料库中使用的日常英语文本的档案或集合?我一直在使用Gutenberg Project书籍来制作一个工作原型,并且希望能够融入更多当代语言。 A recent answer这里间接指向了一个伟大的archive of usenet movie reviews,这在我看来并没有发生,而且非常好。对于这个特定的程序,技术性的usenet档案或编程邮件列表会倾斜结果并且难以分析,但是任何类型的一般博客文本或聊天记录或任何可能对其他人有用的东西都会非常有帮助。此外,非常感谢部分或可下载的研究语料库,这些语料不太明显,或者寻找维基百科文章的适当子集或任何其他想法的启发式方法。 (顺便说一句,我是一个很好的公民,不需要在托管这些资料的服务器上使用一个故意缓慢的脚本,以防万一你意识到道德风险并指向我一些巨大的东西)。NLP:建筑(小)语料库,或“在哪里得到许多不太专业的英语文本文件?”

UPDATE:用户S0rin指出,维基百科请求不抓取,并提供this export tool来代替。 Gutenberg项目有一个指定的政策here,底线,尽量不要抓取,但是如果你需要:“配置你的机器人在请求之间等待至少2秒”。

更新2由于指出了他们的回答者,维基百科的转储是一条路。我最终从这里使用了英文版本:http://download.wikimedia.org/enwiki/20090306/,以及大约一半大小的西班牙文转储。他们是一些清理工作,但非常值得,并且在链接中包含大量有用的数据。


回答

8
  • 使用Wikipedia dumps
    • 需要大量的清理
  • 看看在nltk-data什么可以帮助您
    • 语料库通常相当小
  • Wacky人有一些免费的语料库
    • 标记
    • 您可以使用自己的工具包
  • Europarl是免费蜘蛛自己的语料库和的基础上几乎每一个学术MT系统
    • 口语,翻译为
  • Reuters Corpora是免费,但只有在CD上可用

您可以随时获得自己的,但要警告:HTML页面经常需要大量清理,所以限制自己RSS feed。

如果您在商业上做到这一点,LDC可能是一个可行的选择。

+0

这是非常有用的,谢谢 – unmounted 2008-09-26 08:59:52

+0

此外,4000万字是理想的大小,而我一直使用到现在为止,Europarl数据是完美的。 – unmounted 2008-09-26 09:05:49

0

你已经覆盖了明显的。我唯一能想到的其他领域是:

1)新闻文章/博客。

2)杂志在网上发布大量免费素材,并且您可以获得很多主题的横截面。

4

维基百科听起来像是要走的路。有一个experimental Wikipedia API可能是有用的,但我不知道它是如何工作的。到目前为止,我只是用定制的蜘蛛或者甚至是wget

然后,您可以搜索在RSS提要中提供其完整文章文本的页面。 RSS,因为没有HTML标签在你的路上。

刮邮件列表和/或Usenet有几个缺点:你会得到AOLbonics和Techspeak,这会使你的语料库变得糟糕。

古典语料库是宾夕法尼亚州立大学和英国国家语料库,但它们是付费的。你可以阅读Corpora list archives,甚至可以向他们询问。也许你会使用Web as Corpus工具找到有用的数据。

我实际上有一个小建筑项目,它允许在任意网页上进行语言处理。它应该在接下来的几周内准备好使用,但它到目前为止不是真正意义上的刮板。但我可以为它编写一个模块,我想,功能已经存在。

+0

应该有一个aleksandardimitrov标签,非常感谢 – unmounted 2008-09-26 08:49:58

+0

刚一说明,维基百科问人不使用网页检索器查看网页看到: http://en.wikipedia.org/wiki/Wikipedia_database#Please_do_not_use_a_web_crawler 他们通过“导出”页面提供运行时访问,请参阅:http://en.wikipedia.org/wiki/Special:Export – 2009-03-31 19:06:04

0

调查维基百科数据我注意到他们已经完成了some analysis on bodies of tv and movie scripts。我认为这可能是有趣的文本,但不容易获取 - 事实证明它无处不在,它的结构和可预测性应该可以清除它。 This site,有用地标题为“一堆电影剧本和剧本放在网络上的一个位置”,对于任何在这个话题上遇到类似问题的人都可能是有用的。

1

如果您愿意付钱,您应该查看语言数据联盟(例如Penn Treebank)提供的数据。

1

维基百科似乎是最好的方法。是的,你必须解析输出。但是,由于维基百科的类别,您可以轻松获得不同类型的文章和文字。例如通过解析所有科学类别,您可以获得大量科学词汇。关于地方细则会向地理名称歪斜等

相关问题