我正在创建一个检测短文本语言的应用程序,平均为< 100个字符并且包含俚语(例如tweet,用户查询,短信)。极短文本的语言检测
我测试的所有库都适用于普通网页,但不适用于非常短的文本。迄今为止效果最好的库是Chrome的语言检测(CLD)库,我必须将它作为共享库构建。
当文本由非常短的单词组成时,CLD失败。看过CLD的源代码后,我发现它使用4克,所以可能是原因。
我在想,现在提高精度的方法是:
- 删除名牌,号码,URL和文字,如“软件”,“下载”,“互联网”
- 使用字典当文本包含多个短语时,或者当它包含太少的单词时。
- 该字典来自维基百科新闻文章+ hunspell字典。
什么数据集最适合这项任务?我该如何改进这种方法?
到目前为止,我正在使用EUROPARL和维基百科的文章。我在大部分工作中使用NLTK。
您是否设法将CLD构建为共享库?你愿意分享吗? – Stuart 2011-10-18 20:57:49
@Stuart是的,我有。您需要在构建时将此作为参数传递: './build/gyp_chromium -f make -D library = shared_library' 然后仅采用您想要的'make cld'的特定库。 此处的完整说明http://code.google.com/p/chromium/wiki/LinuxFasterBuilds – MrD 2011-10-18 22:06:58