2011-12-16 83 views
1

我有几十个产品的属性列表,人们关心的是,像关联与预先定义的属性,自由文本陈述

  • 融资
  • 制造质量
  • 耐久性
  • 销售经验

以及来自客户的数百万条有关产品的自由文本陈述,例如

“融资很容易,但住房脆弱。”

我想根据它与每个属性的关联程度来评分每个自由文本语句,以及这是否是正面关联或负面关联。

在给出的例子中,FinancingManufacturing quality有很强的负相关性。

感觉这种类型的问题可能是自然语言编程(NLP)的领域。然而,我花了几个小时阅读了OpenNLP和NLTK之类的东西,发现有很多领域特定的术语,我无法找出解决这个特定问题的重点。

所以我的问题三个部分:

  • 是NLP解决这一类问题的正确途径?
  • NLP的哪个方面应该专注于学习这个特定的问题?
  • 有没有替代方案我没有考虑过?

回答

1

是的,这是一个名为Sentiment analysis的NLP问题。情感分析是一个活跃的研究领域,具有不同的方法和任务,其中许多其他NLP方法必须一起工作,所以它肯定不是NLP中最容易开始使用的领域。

对该领域的学术研究或多或少的近期调查可在Pang & Lee (2008)中找到。

2

您可能会觉得方便的资源是SentiWordNet。 (http://sentiwordnet.isti.cnr.it/)这就像是一本词典,其词汇具有情感等级。它会告诉你它认为一个词是积极的,消极的还是客观的程度。

然后,您可以将其与一些nltk代码结合起来,通过您的句子查看您想要将情绪与情绪相关联的字词。所以你会编写一个脚本来获得一些有意义的文本块,它们围绕着你正在查看的单词,可能是句子或子句级别。然后你可以在周围的单词中找到另一件事,并从SentiWordNet中获取所有的情感分数。

我有一些旧代码可以做到这一点,如果你愿意,可以放在github上,但是你仍然需要自己申请SentiWordNet。

2

我想你的问题更多的是关联而不仅仅是分类。现在推进这个假设:

NLP是解决这类问题的正确途径吗?

是的。

NLP的哪个方面应该专注于针对这个特定问题的学习?

是否有替代我还没有考虑?

深入研究自动机理论与NLP相结合将会对您有所帮助,它帮助我掌握了像OpenNLP这样的实现。

+0

您是否打算将此链接发布到最大熵? http://en.wikipedia.org/wiki/Maximum_entropy_classifier – 2011-12-27 18:10:26