2017-06-14 111 views
0

我正在建立一个文本分类器,将文本分类为主题。找到'现代'nltk单词语料库

作为清洁数据的一部分,我在程序的第一阶段删除了所有非英语单词。为此,我使用nltk.corpus.words.words()语料库。这个语料库的问题在于,它删除了“现代”英语单词,如Facebook,Instagram等。是否有人知道另一个更现代的语料库,我可以用它来替代或结合现在的语料库?

我更喜欢nltk语料库,但我愿意接受其他建议。

在此先感谢

+0

可能比标记的“重复”更相关:https://stackoverflow.com/questions/3788870/how-to-check-if-a-word-is-an-english-word-with-python – alexis

回答

0

我会用维基百科,但它消耗来标记它的整体相当的时间。幸运的是,它已经为您完成了。你可以使用一个经过1000百万字维基百科训练的Word2Vec model,并检查单词是否在模型中。

我还发现这project其中克里斯制作的模型的300万字词汇的文本文件。

请注意,该项目的单词列表中不包含一些停用词,因此,从nltk和这个词中找到列表的联合是个好主意。

1

重新思考你的方法。任何英文文本的集合都会有一个你以前没有见过的词的“长尾”。不管你收集的字典有多大,你都会删除非“非英语”的字词。为了什么目的?留下他们,他们不会破坏你的分类。

如果您的目标是删除非英文文本,请使用统计方法在句子或段落级别进行删除。 ngram模型。他们工作得很好,所需资源极少。

相关问题