我一直在使用Ruby Classifier library来classify privacy policies。我得出的结论是,这个库中内置的简单的单词袋方法是不够的。为了提高我的分类准确度,我想除了单词之外还要训练n-gram的分类器。在ngrams上训练朴素贝叶斯分类器
我想知道是否有一个库用于预处理文档以获得相关n-gram(并正确处理标点符号)。一个想法是,我可以预处理的文件和饲料伪的n-gram与Ruby的分类,如:
wordone_wordtwo_wordthree
或者,也许有更好的方式来这样做,比如有一个图书馆从getgo构建的基于ngram的朴素贝叶斯分类。如果他们完成了这项工作,我很乐于使用Ruby以外的其他语言(如果需要的话,Python似乎是一个很好的候选人)。
很棒的答案+1 – Yavar 2012-04-09 20:39:41
与许多Ruby相比,NLTK看起来很棒。 Python获胜了,谢谢! – babonk 2012-04-09 21:49:47
@babonk我的荣幸。我发现nltk是一个使用和令人难以置信的强大的快乐,希望你有它的乐趣:D – 2012-04-09 21:50:43