2015-06-06 44 views
3

我正在尝试编写一个使用Java中的自然语言词类的程序。我一直在谷歌上搜索,并没有发现整个布朗语料库(或另一个标记词的语料库)。我一直在寻找NLTK信息,这些信息我不感兴趣,我希望能够将数据加载到Java程序中,并总结出单词的出现(以及它们成为什么词性的可能性)。如何访问Java中的布朗语料库(又名NLTK之外)

不要想要使用像斯坦福一样的Java库,我想自己玩我的语料库数据。

+0

你为什么不对NLTK感兴趣?他们将NLP数据集API的最佳覆盖范围封装到一个库中。你不需要编写很多代码,在python和java中获得你所需要的东西,你会得到很多线,http://pastebin.com/7U9GRpNN。我的建议,使用NLTK处理语料库,输出到一个文本文件,并阅读=)另请参阅https://www.cis.upenn.edu/~treebank/ – alvas

回答

3

这里是下载页面的链接布朗语料库:http://www.nltk.org/nltk_data/

所有文件的zip文件。数据格式在Brown Corpus Wikipedia上描述。我不知道还有什么要说的。从那里事情应该是显而易见的。

编辑:如果你想要原始的源数据,我认为有一些corpuses那里有他们的数据。但通常的重点是让其他人做抽样。另外,从维基百科条目中注意到这一点:“每个样本从文章或其他单元中的随机句子边界开始,在2000字后继续到第一个句子边界。”所以布朗语料库的数据基本上是随机的。即使你有原始文本,你也可能无法猜测他们抽样的地方。

+0

谢谢!我想我希望/期望能够从.edu或其他东西下载训练数据。 –

4

数据是数据。 NLTK数据不是模糊的,加密的或困难的格式。只需编写Java代码来阅读它。您可能会在WEKA中找到快捷方式,或者您可能不会。

+0

是的,但是没有办法从它得到它'原始'来源? –

+0

这在这里将成为一个题外话题,但在我看来,就好像NLTK是官方发行版一样。 – bmargulies

+0

好的,谢谢,感激。 –

1

如果您不想混淆NLTK界面:布朗语料库已存放在Internet Archive(archive.org)。在https://archive.org/details/BrownCorpus上,您可以找到一个包含整个语料库的zip存档的链接。 (也是洪流链接,但它似乎不值得3.2 MB的麻烦。)

+0

感谢您发布该链接。我简要地看了一下数据,除了它完全缺少标识流派的位置代码以及样本,行和单词的序号之外,它看起来很准确。 – TextGeek

+0

它缺少_什么?类别流派位于文件“cats.txt”中。其余的我不知道你在说什么。 – alexis

+0

你是对的,有一个“cats.txt”文件(我错过了,因为按字母顺序排列的文件将它埋在500个样本中,并且因为它没有在自述文件中提到)。原始的布朗语料库为每个单词都附加了一个位置代码,告诉您它是哪种流派,样本,行和单词编号。 archive.org上的数据将前两个数据打包成每个文件的名称,并省略后两个数据。此外,它在句子上划线,这不是BC原来的地方。对于许多事情来说,这并不重要。对于某些事情(例如了解出版物中的特定位置参考),它会。 – TextGeek

相关问题