美好的一天, 我试图在python(使用朴素贝叶斯分类器)中编写一个感性分析应用程序,旨在将新闻中的短语分类为正面或负面。 我找到适当的语料库有点麻烦。 我尝试使用“一般询问者”(http://www.wjh.harvard.edu/~inquirer/homecat.htm),它工作正常,但我有一个大问题。 既然是一个单词列表,而不是一个短语列表试图标记下面这句话时,我注意以下问题:用于感性分析的短语语料库
他预计不会赢。
这句话被归类为正面,这是错误的。原因是“赢”是正面的,但“不”没有任何意义,因为“不赢”是一个短语。 任何人都可以为该问题建议一个语料库或工作? 您的帮助和见解非常受欢迎。
作为一个方面说明:你预计朴素贝叶斯在这里工作?假设我们所有的功能都是“赢”,“输”和“不”,而“赢”和“输”等比例出现。然后,“赢”或“不赢”将被错误分类。 –
我相信这就是为什么他要问使用短语作为功能。 – phs
我认为他用词作为特征来分类短语... –