所以我终于OpenNLP纳入我的项目,我已经成功培训了15,000行的训练数据的我的模型,将其存储,并且可以加载它,当我想用它来识别我的程序中的实体! ,我用它来识别井号标签,所以我的训练数据看起来是这样的: ...
Jim , I know you to be a fighter <START:HASHTAG> #usmarine <END> @ USMC Kira has your
我有许多美国学校年鉴的人脸肖像和名称的扫描页面。来自页面的所有文本都是OCR化的并且每个页面以多个版本收集: 非结构化文本文件。 Example Xml带有每句话的坐标。 Example 带有每个单个字母的坐标的Xml。 Example 的目标是,以确定哪些文本字符串代表的人的名字,并将其与人像有关。问题在于每一本年鉴都是独一无二的,每一页都可能是独一无二的,所以没有共同的模式可以应用(但可能有一
我使用Python包装斯坦福NLP 的代码,以查找命名实体是: sentence = "Mr. Jhon was noted to have a cyst at his visit back in 2011."
result = nlp.ner(sentence)
for ne in result:
if ne[1] == 'PERSON':
print(ne)
输出
我正在研究一个简单的基于语法的分析器。为此,我需要首先标记输入。在我的文章中出现了很多城市(例如纽约,旧金山等)。当我使用标准的nltk word_tokenizer时,所有这些城市都会被拆分。 from nltk import word_tokenize
word_tokenize('What are we going to do in San Francisco?')
电流输出: ['W