我使用带停用词的NLTK来检测文档的语言,使用Alejandro Nolla在http://blog.alejandronolla.com/2013/05/15/detecting-text-language-with-python-and-nltk/中描述的方法,它的工作原理合理。如何在NLTK中为停用词添加更多语言?
我还在使用NLTK停用词语包中未包含的一些其他语言,例如捷克语和罗马尼亚语,并且他们会与其他语言一样获得错误匹配。这些是停用词的语言:
['丹麦语','荷兰语','英语','芬兰语','法语','德语','匈牙利语','意大利语','挪威语','葡萄牙语','russian','西班牙语','瑞典语','土耳其语']
如何扩展NLTK支持的语言列表?是否有其他可用的停用词表可供添加?是否有一个记录的方法,我可以用来创建一个添加我自己的停用词表?
如果有人会发现它有用,我使用我现已解散的项目的额外的停用词列表可在Github上免费获得:https ://github.com/Xangis/extra-stopwords –