2015-02-11 50 views
1

我需要使用Stanford NLP工具对关于特定主题的新闻文章进行情感分析。句子级到文档级情感分析。分析新闻

这样的工具只允许基于句子的情感分析,而我想提取关于我的话题的整篇文章的情感评估。例如,如果我的话题是苹果,我想知道关于苹果的新闻文章的感受。

只是在我的文章中计算句子的平均值不会。举例来说,我可能会有一篇文章说“苹果公司非常擅长这一点,而这一点,尽管Google产品非常糟糕,但出于这些原因”。这样的文章将导致使用平均句子分数的中性分类,而实际上这是一篇关于苹果的非常积极的文章。

另一方面,将我的句子过滤为只包含那些包含单词的单词苹果会错过“苹果产品A非常好,但缺少以下关键功能:”的文章。在这种情况下,如果仅使用包含苹果一词的句子,则第二句的效果将会丢失。

有没有解决这类问题的标准方法?斯坦福大学NLP是完成我的目标的错误工具吗?

回答

3

更新:您可能想看看 http://blog.getprismatic.com/deeper-content-analysis-with-aspects/

这是研究的一个非常活跃的领域所以这将是很难找到一个现成的,现成的工具来做到这一点(至少没有什么是建于斯坦福大学CoreNLP)。一些指针:研究基于方面的情感分析。在这种情况下,苹果将是一个“方面”(不是真的,但可以通过这种方式进行建模)。麻省大学的Andrew McCallum小组,刘易斯在UIC的团队,康奈尔大学的NLP小组等都在研究这个问题。

如果您想快速解决问题,我会建议从参考Apple及其产品的句子中提取情感;使用coref(检查斯坦福CoreNLP中的dcoref注释器),这将增加句子的回忆并解决类似“但是它缺乏..”的句子问题。

+0

博客的链接未能加载我 – naoko 2016-08-03 20:31:36