我使用Nltk和Scikit Learn来做一些文本处理。但是,在我的文件清单中,我有一些文件不是英文的。例如,下面可能是真的:确定文本是否为英文?
[ "this is some text written in English",
"this is some more text written in English",
"Ce n'est pas en anglais" ]
对于我分析的目的,我想这不是英文句子都作为预处理的一部分被移除。但是,有没有一种好方法可以做到这一点?我一直在谷歌搜索,但无法找到任何具体的东西,可以让我认识到,如果字符串是英文或不。这是不是作为Nltk
或Scikit learn
的功能提供? 编辑我见过类似this和this的问题,但都是针对单个单词...不是“文档”。我是否需要遍历句子中的每个单词来检查整个句子是否是英文的?
我正在使用Python,所以Python中的库会更好,但如果需要,我可以切换语言,只是认为Python会是最好的。
正是我一直在寻找的感谢! :)只是一个问题,你知道这个库在长文件上的表现吗? – ocean800
我没有用过它。在这里分享你的经验将会很棒。 – salehinejad
不幸的是,它在很多文档上都很慢,但是谢谢! – ocean800