可能训练NLTK以检测句子中“拼凑”的名字？

我最近使用首发NLTK看着数据提取。虽然有几个例子，用于检测“真实”的名称，位置等技术。我还没有找到一个有效的方法来检测“由”或“虚”的名字。一个例子字符串是：可能训练NLTK以检测句子中“拼凑”的名字？

他的名字是wuzzywugg，他有一个名为fizzbuzz

狗，我想训练NLTK是能够检测“wuzzywugg”和“fizzbuzz”的名字的字符。看到了一些解决方案，依靠开头大写字母词，但这种感觉很“哈克” 而且容易出错和误报。

如何解决这个问题的任何帮助，将不胜感激。提前致谢。

2017-04-27 django-d

命名实体识别依靠各种线索（通常包括大小写），以决定哪一种命名实体的（如果有的话），他们正在寻找。如果你不关心从名称中区分实际情况，这对你来说应该已经足够好了。 – alexis

我处理俄罗斯民间故事时，同样的问题跑了，实际上大多数人的名字不会出现在西方Gazeteers。一种快速的方法可能是使用词性标记并只获得NNP（专有名词）。检查这个：http://www.nltk.org/book/ch05.html

这并不完全适用于我，我的方法实际上是提取所有名词短语（从解析树中的NP节点），然后提取我注释自己建立ML分类器的特征向量。你可以在这里找到更多的信息：http://ieeexplore.ieee.org/document/7489041/

2017-04-27 15:37:08

回答