2010-10-13 109 views
37

我一直在阅读大量的文章,解释在情绪分析系统真正起作用之前,被分类为“积极”或“消极”的最初一组文本的需要。无监督情绪分析

我的问题是:有没有人企图对“正面”形容词与“负面”形容词进行基本检查,并考虑到任何简单的否定,以避免将“不快乐”归为正面?如果是这样,是否有任何文章讨论为什么这种策略不现实?

回答

55

一个classic paper by Peter Turney(2002)只用字说明了如何做监督的情感分析(正极/负极分类)的方法优秀作为种子集。 Turney使用其他词的mutual information与这两个形容词来达到74%的准确度。

+0

这个人得到答案标签。这是一篇非常有趣的文章。 – Trindaz 2010-10-15 12:38:45

15

我还没有尝试做过未经训练的情感分析,例如你所描述的,但是我的头顶上我会说你是在简化这个问题。简单地分析形容词不足以很好地理解文本的情感;例如,考虑“愚蠢”这个词。独自一人,你会把它归类为负面的,但如果产品评论有'... [x]产品让他们的竞争对手看起来很愚蠢,因为先不考虑这个功能......'那么在那里的情感肯定会是积极的。在这样的情况下,词语出现的上下文肯定很重要。这就是为什么单独使用未经训练的书包方式(更不用说更加有限的形容词)不足以充分解决这个问题。

预先分类的数据('训练数据')有助于将问题从试图确定文本是否具有正面或负面情绪从尝试确定文本是否与正面文本更相似或消极的文本,并以这种方式进行分类。另一大问题是情感分析等文本分析常常受到文本特征与领域特征差异的影响。这就是为什么拥有一套好的数据来训练(也就是说,你正在工作的领域内的准确数据,并且希望能够代表你将要分类的文本)与建立一个好东西同样重要系统用来分类。

不完全是一篇文章,但希望有所帮助。

+0

感谢您的回复华夫饼!我非常感谢所有关于此主题的意见。 – Trindaz 2010-10-15 11:57:27

2

我试着使用影响词典来发现关键词来预测句子级别的情感标签。考虑到词汇的一般性(非域依赖),结果只有大约61%。该论文可在我的主页上找到。

在一个稍微改进的版本中,考虑了否定副词。整个系统,命名为EmoLib,可用于演示:

http://dtminredis.housing.salle.url.edu:8080/EmoLib/

问候,

+0

感谢您的这款酒吧。它为我进行的测试运行得非常好。 – Trindaz 2010-10-15 12:02:09

2

大卫,

我不知道如果这有助于但你可能想看看雅各珀的blog post使用NLTK进行情感分析。

+2

他正在做监督分类。 – theharshest 2014-11-02 22:56:01

0

在情感分析中没有神奇的“捷径”,就像寻求发现大量文本底层“关系”的任何其他类型的文本分析一样。试图通过简单的“形容词”检查或类似的方法来缩短证明的文本分析方法会导致歧义,错误的分类等,在一天结束的时候,会让你对情绪的准确度读数不准确。来源(例如Twitter)越简洁,问题就越困难。

3

兰斯曼提到的特纳(2002)的论文是一个很好的基础论文。在较新的研究中,Li and He [2009]介绍了一种使用Latent Dirichlet Allocation(LDA)的方法来训练模型,该模型可以以完全无监督的方式同时分类文章的整体情感和主题。他们达到的准确率是84.6%。

+0

这看起来很有希望,我会读它并回复评论 – 2013-02-26 10:51:53

+1

你真的最终尝试它吗?我正在研究一个类似的问题,试图对enron电子邮件存档进行情感分析。 – user1943079 2015-05-09 08:37:21

+0

@TrungHuynh我在发布答案后将近4年发布这篇文章,但现在已经更改了该论文的链接。你能告诉我期刊论文的名字,以便我可以在网上搜索吗? – Krishh 2016-04-08 18:45:12

2

我在评论中尝试了多种舆情挖掘舆情分析方法。 最适合我的是刘书中所描述的方法:http://www.cs.uic.edu/~liub/WebMiningBook.html在这本书中,刘和其他人比较了许多策略,并讨论了关于情感分析和意见挖掘的不同论文。

虽然我的主要目标是提取意见中的功能,但我实施了一种情感分类器来检测此功能的正面和负面分类。

我使用NLTK进行预处理(字标记,POS标记)和三卦创建。然后,我还使用了这个takeit中的贝叶斯分类器来与刘准确定位的其他策略进行比较。

其中一种方法依赖标记pos/neg每个trigrram来表达这些信息,并对这些数据使用一些分类器。 其他方法我尝试过,并且工作得更好(在我的数据集中准确率达到85%左右),计算句子中每个单词的PMI(准时互信息)分数和优秀/差作为pos/neg类。

+0

您好Luchux,我正在一个类似的域名,可以请你分享你的数据集,这将是非常有益的。 – turing 2015-04-08 10:29:23