0
我是NLP的新手,有一个非常简单的问题,我希望问很多,但老实说在任何地方都找不到:在同一个分类器(如unigrams + bigrams)中可以使用多种类型的ngram?可以在同一个分类器中使用多个ngram吗?
我试过这样做,至少对于朴素贝叶斯来说,它给我的准确性比只有bigrams更高(虽然低于unigrams),但我不确定它是否是合法的做法。我所关心的一个问题是,如果这是一个适用的术语,即'运气'和'好运'都接近信息最丰富的特征列表的顶部,那么存在多重共线性的可能性。
谢谢!如果我有足够的时间(项目的截止日期并不那么遥远),我会尝试实施类似POS标签的事情。顺便说一下,我的训练数据仅包含600条消息(通常Kickstarter的评论非常冗长,但不包括推文,希望能够弥补微不足道的训练集大小)。在相关说明中,如果情绪分析是辅助工具以更深入地进行人工分析,并且不要问一个单独的问题,那么可以将这样一个小数据集和68-70%的准确度(我有3个类别)评论? – werblilben
是否有长消息,如果每条消息都作为一个整体进行评估,则有600个数据点。所以请避免过度训练,例如bigrams。可接受的准确度取决于您的目标,以及(对于项目)当前状态。 – alexis
再次感谢:)在讨论各种Kickstarter项目时,我使用SA来获得动态的鸟瞰图,所以我认为〜68%的准确性应该足够了,因为一些关于电影评论SA的论文甚至提供了64%准确性作为可敬的结果。 – werblilben