2012-05-28 22 views
5

美好的一天, 我试图在python(使用朴素贝叶斯分类器)中编写一个感性分析应用程序,旨在将新闻中的短语分类为正面或负面。 我找到适当的语料库有点麻烦。 我尝试使用“一般询问者”(http://www.wjh.harvard.edu/~inquirer/homecat.htm),它工作正常,但我有一个大问题。 既然是一个单词列表,而不是一个短语列表试图标记下面这句话时,我注意以下问题:用于感性分析的短语语料库

他预计不会赢。

这句话被归类为正面,这是错误的。原因是“赢”是正面的,但“不”没有任何意义,因为“不赢”是一个短语。 任何人都可以为该问题建议一个语料库或工作? 您的帮助和见解非常受欢迎。

+0

作为一个方面说明:你预计朴素贝叶斯在这里工作?假设我们所有的功能都是“赢”,“输”和“不”,而“赢”和“输”等比例出现。然后,“赢”或“不赢”将被错误分类。 –

+0

我相信这就是为什么他要问使用短语作为功能。 – phs

+0

我认为他用词作为特征来分类短语... –

回答

3

在这种情况下,工作修改expecteed赢得,扭转它短语的意义。为了确定这一点,你需要POS标签句子,并将否定副词而不是应用于(我认为)动词短语作为否定。但是,我不知道是否有一个语料库会告诉你,不会是这种类型的修饰符。

+1

我喜欢你在结尾附近使用“不”的单词。祝你好运,我们所有的算法找出什么是否定! :-) –