2011-09-21 61 views
1

这是在使用LingPipe机器学习工具进行情感分析的情况下。如果大段落中的句子有积极/消极的情绪,我必须分类。我知道在LingPipe中使用以下方法使用LingPipe做分层情绪分析

  1. 如果完整段落基于其极性进行分类 - 负值或正值。

    在这里,我还不知道句子级别的极性。我们仍处于段落级别。我如何确定段落句子级别的极性,以及段落中的句子是否为肯定/否定句子?我知道LingPipe能够对一个句子是主观/客观的进行分类。因此,使用这种方式,,,,

    ,,,,我应该

  2. 首班车LingPipe上一大组是主观/客观的句子。

  3. 使用训练好的模型从测试段落中提取所有主观句子。
  4. 根据提取的主观句子为极性训练LingPipe分类器,方法是手动将其标记为正面/负面。
  5. 现在使用的训练的极性模式和饲料测试主观句模型(即通过1个句子经过训练的主观/客观完成),然后确定是否该语句是正/负?

    以上方法有效吗?在上述提议的方法中,我们知道LingPipe能够接受极性分类的大型文本内容(段落)。如果我们只通过一个主观句子来进行极性分类,它会做得很好吗?我很困惑!

回答

1

包括舌管在内的大多数机器排列库都是基于行的(具有平面特征的对象)。所以如果你想用它做一些分层分类,你应该对你的数据进行denormolize。例如,您可以在相同的功能集上使用paragrahp和句子的功能。如果您仅使用单词分类,则可以创建此类功能PARGRAPH_WORDX = true,SENTENCE_WORDX = true。 其他一些工具包可以让你表达你的模型而不是反规范化,它就是所谓的图形模型实例是CRF,ACRF,马尔可夫模型等实现那些你可以在槌子和Factorie中找到的。

+0

谢谢yura。简而言之,你的意思是说,如果我使用段落级别的功能集,那么相同的功能集也可以在句级使用? –

+0

是的,您可以在分类的句子的一个特征集合中结合段落和句子的特征。有时它的作品。这就像你想要对树中的某个节点进行分类,并为此添加了所有父节点的功能。 – yura

2

你可能想看看在多层次的分析方法在文献中,例如

Li,S.,et al。 (2010年)。 “开发用于文档情感分析的组合多级模型”,2010年模式识别国际会议。

Yessenalina,A.,et al。 (2010年)。 “文档级情感分类的多级结构化模型”2010年10月9 - 11日于美国马萨诸塞州麻省理工学院召开的2010年自然语言处理实证方法会议论文集,第1046-1056页。

Multi-水平分析方法在信息检索中非常常见,如在向量空间相似性搜索的内容索引中。

环境,如菱管是上手的好办法,但最终你需要使用较低的水平,更细粒度的工具,如尤拉建议。