2012-12-08 73 views
3

有没有办法显示哪个字是填充词在给定的文本中使用NLTK? 如果没有人知道我在哪里可以得到一个wordlist与英语填词? 谢谢nltk pos标记expletives

解决:从nltk.corpus进口停用词

回答

3

NLTK本身并不提供这样一份名单虽然很多都可以在网络上的其他地方。

存在着相当数量的来源:网络搜寻SEARCH_TERM_EXAMPLES与“亵渎”生词“badwords.txt”blacklists.txt将产生许多来源。

在我们公司的情况下,我们最终创建了自己的清单并根据需要添加到清单中。根据您的受众,该列表必须进行调整和调整。

最后,即使这个SO question已关闭(关于php),我发现参考和讨论非常有用。

更新:你想要的是一个列表停止词语

  1. 尝试:http://www.ranks.nl/resources/stopwords.html
  2. 停用词MIT also maintains a list

希望有所帮助。

+0

显然这个词咒骂也代表坏词,我的意思是不是坏词,但**填词**,有没有办法在哪里获得这样的清单?还是NLTK提供它? – Mirko

+0

根据您的澄清更新了我的答案 –