2008-09-23 21 views
13

我需要您的帮助来确定分析针对“积极”与“消极”的行业特定句子(即电影评论)的最佳方法。我以前见过类似OpenNLP的图书馆,但它太低级了 - 它只给了我基本的句子构成;我需要的是一个更高级别的结构: - 希望与wordlists - 希望可以在我的数据集上训练NLP:定性地“积极”与“否定”句子

谢谢!

回答

23

你在找什么是通常配音Sentiment Analysis。通常,情绪分析不能处理微妙的微妙之处,比如讽刺或讽刺,但是如果你在其上投入大量数据,它的表现会非常好。

情感分析通常需要相当多的预处理。至少标记化,句子边界检测和词性标注。有时候,句法分析可能很重要。正确地做这件事是计算语言学研究的一个分支,除非你花时间先研究这个领域,否则我不会建议你提出自己的解决方案。

OpenNLP有一些工具可以帮助情感分析,但是如果您想要更严肃的事情,您应该查看LingPipe工具包。它有一些内置的SA功能和一个不错的tutorial。你可以用自己的数据来训练它,但不要认为这是完全微不足道的:-)。

谷歌搜索这个词可能也会给你一些资源。如果您有任何更具体的问题,请问,我正在密切关注nlp标签;-)

+0

令人惊讶的有用 - 感谢一堆,亚历山大! – 2008-09-24 16:38:39

6

一些情感分析方法使用其他文本分类任务中流行的策略。最常见的是将您的电影评论转换为单词矢量,并将其作为训练数据提供给分类器算法。大多数流行的数据挖掘软件包可以帮助您。你可以看看这个tutorial on sentiment classification说明如何使用开源RapidMiner toolkit做一个实验。

顺便提一句,有一个good data set可用于研究目的有关检测电影评论的意见。它基于IMDB用户评论,您可以在该区域检查许多related research work以及他们如何使用数据集。

值得注意的是,这些方法的有效性只能从统计角度来判断,所以你几乎可以认为会出现错误分类和难以发现意见的情况。正如在本文中已经注意到的那样,检测讽刺和讽刺等事情确实是非常困难的。