2016-03-24 34 views
0

我是NLP新手,我必须为我的NLP课程解决一个练习。基本上,我收到一个含有缩写的原始文本,如(CRF,ABC等),还有其他类型的大写字母(FOOD,HOUSE),我必须对它们进行分类。区分缩写和简单大写的单词吗?

我不知道从哪里开始,你能指点我一些算法吗?随机方法可以帮助我解决问题?

回答

0

使用“正规”英文单词(在Linux,WordNet等上的拼写字典)的字典,并检查单词是否在那里。其次,使用词性标注器。如果该单词不是名词,则不可能是首字母缩写词。最后,检查现有软件,例如Acronym Finder和论文(在Google Scholar上搜索“缩写词检测”)。

0

同意fnl。使用包含常用英语单词的词性并训练您的文本数据集。它会自动标记'无','动词'和'缩写'。 pos的种类很多,如果你可以选择一个与你的文本数据更接近的区域会更好。 例如,http://www.cs.cmu.edu/~ark/TweetNLP/为推文提供了一个pos。

+0

我同意,如果我只有缩写和名词,那么使用pos tagger的想法会有所帮助,但如果我有其他的假缩写如罗马字母(I,V,VI)或单字母字母表(甲型肝炎,乙型肝炎或丙型肝炎)。 pos tagger是否足以区分这些情况呢? –