我的目标是分析一些语料库(现在的twitter)的情感内容。就在今天,我意识到搜索词干有一定意义,而不是有一个详尽的情感词干清单。所以我一直在探索nltk.stem,只是意识到有4个不同的词干。我想询问一下计算器语言学家LancasterStemmer,PorterStemmer,RegexpStemmer,RSLPStemmer或者WordNetStemmer是否最好有一些理由。我应该在nltk中使用哪一个词干?
9
A
回答
7
RSLP适用于葡萄牙语。我猜你想要英文。正则表达式会要求你开发自己的词干表达式,所以我认为这也可以忽略。 WordnetStemmer要求你知道单词的词性,所以你必须先做pos标记才能使用它。我已经使用了porter stemming算法,它的性能很好,但lancaster算法更新,所以它可能会更好。您可能想尝试使用stemmers的组合,您可以从每个stemmer选择最短的词干。无论如何,底线是PorterStemmer是一个很好的默认选择。
9
它可能有点不同于你问的,但是Nodebox Lingustics库包含一个is_emotive()函数,它似乎检查单词以查看它们是否是某些情感词汇的递归下标。来自commonsense.py
ekman = ["anger", "disgust", "fear", "joy", "sadness", "surprise"]
other = ["emotion", "feeling", "expression"]
不是一个词干,但一个有趣的方法来检查。
相关问题
- 1. 词干与NLTK(python)
- 2. Nltk中的WordNetLemmatizer词干?
- 3. 在nltk中查找词干python
- 4. 我应该使用哪一个CAPTCHA?
- 5. 我应该使用哪一个? (性能)
- 6. 我应该使用哪一个OpenGL库?
- 7. OAuth/OpenID - 我应该使用哪一个?
- 8. 我应该使用哪一个? decimal.Add()或“+”
- 9. NAnt或MSBuild,我应该在svn环境中使用哪一个?
- 10. 我应该在servlet的request.getParameter中使用哪一个?
- 11. 我应该在Java Hibernate应用程序中使用哪个PERSIST?
- 12. 我有两个web.config文件。我应该使用哪一个?
- 13. 如何使用NLTK干
- 14. 我应该使用哪个容器
- 15. 我应该使用哪个Facebook SDK?
- 16. BorderLayout,GridLayout,GridBagLayout?我应该使用哪个?
- 17. 我应该使用哪个JSObject?
- 18. 我应该使用哪个postgresql包?
- 19. 我应该使用哪个SQL子句?
- 20. 我应该使用哪个查询?
- 21. 我应该使用哪个GWT EventBus?
- 22. 我应该使用哪个组件?
- 23. 我应该使用哪个错误值?
- 24. 我应该使用哪个容器?
- 25. 我应该使用哪个Rails Association?
- 26. 我应该使用哪个库?
- 27. 我应该使用哪个JavaScript库?
- 28. 我应该使用哪个jQuery CSS?
- 29. 我应该使用哪个PHP Session类?
- 30. 我应该使用哪个Rails插件?