2017-04-27 35 views
0

我最近使用首发NLTK看着数据提取。虽然有几个例子,用于检测“真实”的名称,位置等技术。我还没有找到一个有效的方法来检测“由”或“虚”的名字。一个例子字符串是:可能训练NLTK以检测句子中“拼凑”的名字?

他的名字是wuzzywugg,他有一个名为fizzbuzz

狗,我想训练NLTK是能够检测“wuzzywugg”和“fizzbuzz”的名字的字符。看到了一些解决方案,依靠开头大写字母词,但这种感觉很“哈克” 而且容易出错和误报。

如何解决这个问题的任何帮助,将不胜感激。提前致谢。

+0

命名实体识别依靠各种线索(通常包括大小写),以决定哪一种命名实体的(如果有的话),他们正在寻找。如果你不关心从名称中区分实际情况,这对你来说应该已经足够好了。 – alexis

回答

0

我处理俄罗斯民间故事时,同样的问题跑了,实际上大多数人的名字不会出现在西方Gazeteers。一种快速的方法可能是使用词性标记并只获得NNP(专有名词)。检查这个:http://www.nltk.org/book/ch05.html

这并不完全适用于我,我的方法实际上是提取所有名词短语(从解析树中的NP节点),然后提取我注释自己建立ML分类器的特征向量。你可以在这里找到更多的信息:http://ieeexplore.ieee.org/document/7489041/