如何访问Java中的布朗语料库（又名NLTK之外）

我正在尝试编写一个使用Java中的自然语言词类的程序。我一直在谷歌上搜索，并没有发现整个布朗语料库（或另一个标记词的语料库）。我一直在寻找NLTK信息，这些信息我不感兴趣，我希望能够将数据加载到Java程序中，并总结出单词的出现（以及它们成为什么词性的可能性）。如何访问Java中的布朗语料库（又名NLTK之外）

我不要想要使用像斯坦福一样的Java库，我想自己玩我的语料库数据。

来源

2015-06-06 Nate Cook3

你为什么不对NLTK感兴趣？他们将NLP数据集API的最佳覆盖范围封装到一个库中。你不需要编写很多代码，在python和java中获得你所需要的东西，你会得到很多线，http://pastebin.com/7U9GRpNN。我的建议，使用NLTK处理语料库，输出到一个文本文件，并阅读=）另请参阅https://www.cis.upenn.edu/~treebank/ – alvas

这里是下载页面的链接布朗语料库：http://www.nltk.org/nltk_data/

所有文件的zip文件。数据格式在Brown Corpus Wikipedia上描述。我不知道还有什么要说的。从那里事情应该是显而易见的。

编辑：如果你想要原始的源数据，我认为有一些corpuses那里有他们的数据。但通常的重点是让其他人做抽样。另外，从维基百科条目中注意到这一点：“每个样本从文章或其他单元中的随机句子边界开始，在2000字后继续到第一个句子边界。”所以布朗语料库的数据基本上是随机的。即使你有原始文本，你也可能无法猜测他们抽样的地方。

来源

2015-06-06 17:18:43 markspace

谢谢！我想我希望/期望能够从.edu或其他东西下载训练数据。 –

数据是数据。 NLTK数据不是模糊的，加密的或困难的格式。只需编写Java代码来阅读它。您可能会在WEKA中找到快捷方式，或者您可能不会。

来源

2015-06-06 17:08:40 bmargulies

是的，但是没有办法从它得到它'原始'来源？ –

这在这里将成为一个题外话题，但在我看来，就好像NLTK是官方发行版一样。 – bmargulies

好的，谢谢，感激。 –

如果您不想混淆NLTK界面：布朗语料库已存放在Internet Archive（archive.org）。在https://archive.org/details/BrownCorpus上，您可以找到一个包含整个语料库的zip存档的链接。（也是洪流链接，但它似乎不值得3.2 MB的麻烦。）

来源

2015-06-13 20:10:09 alexis

感谢您发布该链接。我简要地看了一下数据，除了它完全缺少标识流派的位置代码以及样本，行和单词的序号之外，它看起来很准确。 – TextGeek

它缺少_什么？类别流派位于文件“cats.txt”中。其余的我不知道你在说什么。 – alexis

你是对的，有一个“cats.txt”文件（我错过了，因为按字母顺序排列的文件将它埋在500个样本中，并且因为它没有在自述文件中提到）。原始的布朗语料库为每个单词都附加了一个位置代码，告诉您它是哪种流派，样本，行和单词编号。 archive.org上的数据将前两个数据打包成每个文件的名称，并省略后两个数据。此外，它在句子上划线，这不是BC原来的地方。对于许多事情来说，这并不重要。对于某些事情（例如了解出版物中的特定位置参考），它会。 – TextGeek

如何访问Java中的布朗语料库（又名NLTK之外）

回答

相关问题