这是可能的:获得(类似于)斯坦福命名实体识别器功能只使用NLTK?斯坦福大学命名实体识别器(NER)功能与NLTK
有没有例子?
特别是,我对提取LOCATION部分文本感兴趣。例如,从文本
会议将于22西威斯汀日,南卡罗来纳州,12345 11月18
理想举行我想获得像
(S
22/LOCATION
(LOCATION West/LOCATION Westin/LOCATION)
st./LOCATION
,/,
(South/LOCATION Carolina/LOCATION)
,/,
12345/LOCATION
.....
或者干脆
22 West Westin st., South Carolina, 12345
相反,我只能够得到
(S
The/DT
meeting/NN
will/MD
be/VB
held/VBN
at/IN
22/CD
(LOCATION West/NNP Westin/NNP)
st./NNP
,/,
(GPE South/NNP Carolina/NNP)
,/,
12345/CD
on/IN
Nov.-18/-NONE-)
需要注意的是,如果我输入文本http://nlp.stanford.edu:8080/ner/process我得到的结果远非完美(门牌号和邮政编码仍然下落不明),但至少“ST。 “是LOCATION的一部分,南卡罗来纳州是LOCATION,而不是一些“GPE/NNP”:?
我在做什么错了?我该如何解决它以使用NLTK从一些文本中提取位置片?
非常感谢提前!
你知道我是否可以训练斯坦福大学的NER吗?我尝试过。 “绿野仙踪离开了祖母绿城。”和“亚历山大大帝征服波斯帝国”。都没有工作。 – Hans
@edfward java在端口9191上运行它,但python在8080端口上运行它。为什么? – bernie2436
@ akh2103我的错。我已经在答案中更正了,他们应该是一致的,而实际的端口可能会有所不同。 – junjiah