我有几十个产品的属性列表,人们关心的是,像关联与预先定义的属性,自由文本陈述
- 融资
- 制造质量
- 耐久性
- 销售经验
以及来自客户的数百万条有关产品的自由文本陈述,例如
“融资很容易,但住房脆弱。”
我想根据它与每个属性的关联程度来评分每个自由文本语句,以及这是否是正面关联或负面关联。
在给出的例子中,Financing
与Manufacturing quality
有很强的负相关性。
感觉这种类型的问题可能是自然语言编程(NLP)的领域。然而,我花了几个小时阅读了OpenNLP和NLTK之类的东西,发现有很多领域特定的术语,我无法找出解决这个特定问题的重点。
所以我的问题三个部分:
- 是NLP解决这一类问题的正确途径?
- NLP的哪个方面应该专注于学习这个特定的问题?
- 有没有替代方案我没有考虑过?
您是否打算将此链接发布到最大熵? http://en.wikipedia.org/wiki/Maximum_entropy_classifier – 2011-12-27 18:10:26