Q

找到'现代'nltk单词语料库

2017-06-14 111 views 0 likes

0

我正在建立一个文本分类器，将文本分类为主题。找到'现代'nltk单词语料库

作为清洁数据的一部分，我在程序的第一阶段删除了所有非英语单词。为此，我使用nltk.corpus.words.words（）语料库。这个语料库的问题在于，它删除了“现代”英语单词，如Facebook，Instagram等。是否有人知道另一个更现代的语料库，我可以用它来替代或结合现在的语料库？

我更喜欢nltk语料库，但我愿意接受其他建议。

在此先感谢

2017-06-14 user4550050

+0

可能比标记的“重复”更相关：https://stackoverflow.com/questions/3788870/how-to-check-if-a-word-is-an-english-word-with-python – alexis

A

回答

0

我会用维基百科，但它消耗来标记它的整体相当的时间。幸运的是，它已经为您完成了。你可以使用一个经过1000百万字维基百科训练的Word2Vec model，并检查单词是否在模型中。

我还发现这project其中克里斯制作的模型的300万字词汇的文本文件。

请注意，该项目的单词列表中不包含一些停用词，因此，从nltk和这个词中找到列表的联合是个好主意。

2017-06-14 16:45:59 aberger

1

重新思考你的方法。任何英文文本的集合都会有一个你以前没有见过的词的“长尾”。不管你收集的字典有多大，你都会删除非“非英语”的字词。为了什么目的？留下他们，他们不会破坏你的分类。

如果您的目标是删除非英文文本，请使用统计方法在句子或段落级别进行删除。 ngram模型。他们工作得很好，所需资源极少。

2017-06-14 19:48:48 alexis

相关问题