关联与预先定义的属性，自由文本陈述

我有几十个产品的属性列表，人们关心的是，像关联与预先定义的属性，自由文本陈述

以及来自客户的数百万条有关产品的自由文本陈述，例如

“融资很容易，但住房脆弱。”

我想根据它与每个属性的关联程度来评分每个自由文本语句，以及这是否是正面关联或负面关联。

在给出的例子中，Financing与Manufacturing quality有很强的负相关性。

感觉这种类型的问题可能是自然语言编程（NLP）的领域。然而，我花了几个小时阅读了OpenNLP和NLTK之类的东西，发现有很多领域特定的术语，我无法找出解决这个特定问题的重点。

所以我的问题三个部分：

2011-12-16 Eric J.

是的，这是一个名为Sentiment analysis的NLP问题。情感分析是一个活跃的研究领域，具有不同的方法和任务，其中许多其他NLP方法必须一起工作，所以它肯定不是NLP中最容易开始使用的领域。

对该领域的学术研究或多或少的近期调查可在Pang & Lee (2008)中找到。

2011-12-16 23:29:55 tobigue

您可能会觉得方便的资源是SentiWordNet。（http://sentiwordnet.isti.cnr.it/）这就像是一本词典，其词汇具有情感等级。它会告诉你它认为一个词是积极的，消极的还是客观的程度。

然后，您可以将其与一些nltk代码结合起来，通过您的句子查看您想要将情绪与情绪相关联的字词。所以你会编写一个脚本来获得一些有意义的文本块，它们围绕着你正在查看的单词，可能是句子或子句级别。然后你可以在周围的单词中找到另一件事，并从SentiWordNet中获取所有的情感分数。

我有一些旧代码可以做到这一点，如果你愿意，可以放在github上，但是你仍然需要自己申请SentiWordNet。

2011-12-17 17:53:10

我想你的问题更多的是关联而不仅仅是分类。现在推进这个假设：

NLP是解决这类问题的正确途径吗？

是的。

NLP的哪个方面应该专注于针对这个特定问题的学习？

是否有替代我还没有考虑？

深入研究自动机理论与NLP相结合将会对您有所帮助，它帮助我掌握了像OpenNLP这样的实现。

2011-12-17 19:35:58 samridhi

您是否打算将此链接发布到最大熵？ http://en.wikipedia.org/wiki/Maximum_entropy_classifier – 2011-12-27 18:10:26

回答