我有两个非结构化文本输入列表,我想查找区分listA
与listB
的单词。 例如,如果listA
是的“哈利·波特”的文字和listB
是的“安德的游戏”一文,对listA
的区分元素将[wand, magic, wizard, . . .]
和listB
区分元素将[ender, buggers, battle, . . .]
我如何从语料库中发现与其他语料库区别开来的单词列表? Python
我试着有一点与python-nltk模块有关,并且能够轻松找到每个列表中最常见的单词,但这并不完全是我所追求的。
listA如何知道魔杖,魔法和奇才? – Mathemats 2015-03-30 23:40:38
我想你会想将每本书的频率计数与某些标准语料库中的频率计数进行比较。如果这些词在语料库中频率较低,但在书中频率相对较高,则它们是有区别的。 – Marius 2015-03-30 23:41:57
'topic-model',试试https://radimrehurek.com/gensim/ – alvas 2015-03-31 09:43:40