2016-11-30 68 views
0

我是NLP的新手,有一个非常简单的问题,我希望问很多,但老实说在任何地方都找不到:在同一个分类器(如unigrams + bigrams)中可以使用多种类型的ngram?可以在同一个分类器中使用多个ngram吗?

我试过这样做,至少对于朴素贝叶斯来说,它给我的准确性比只有bigrams更高(虽然低于unigrams),但我不确定它是否是合法的做法。我所关心的一个问题是,如果这是一个适用的术语,即'运气'和'好运'都接近信息最丰富的特征列表的顶部,那么存在多重共线性的可能性。

回答

0

简短答案是“是”。较长的答案是,你可以使用任何你想要的作为训练功能。但我怀疑你正在使用原始的unigrams和bigrams作为你的功能。如果bigrams本身不如unigrams有用,那么显然没有足够的训练数据让你的应用程序从中得出有用的推论。添加一些较低级别的功能(例如,POS标签的一个bigram),其具有较少的可能性并因此更容易概括。

+0

谢谢!如果我有足够的时间(项目的截止日期并不那么遥远),我会尝试实施类似POS标签的事情。顺便说一下,我的训练数据仅包含600条消息(通常Kickstarter的评论非常冗长,但不包括推文,希望能够弥补微不足道的训练集大小)。在相关说明中,如果情绪分析是辅助工具以更深入地进行人工分析,并且不要问一个单独的问题,那么可以将这样一个小数据集和68-70%的准确度(我有3个类别)评论? – werblilben

+0

是否有长消息,如果每条消息都作为一个整体进行评估,则有600个数据点。所以请避免过度训练,例如bigrams。可接受的准确度取决于您的目标,以及(对于项目)当前状态。 – alexis

+0

再次感谢:)在讨论各种Kickstarter项目时,我使用SA来获得动态的鸟瞰图,所以我认为〜68%的准确性应该足够了,因为一些关于电影评论SA的论文甚至提供了64%准确性作为可敬的结果。 – werblilben

相关问题