我们需要在斯坦福大学添加术语到命名实体提取表/模型,但无法弄清楚。用例 - 我们需要随着时间的推移构建一组IED条款,并希望Stanford管道在文本文件中找到条款。用新术语扩展斯坦福NER术语
看看是否这是前
我们需要在斯坦福大学添加术语到命名实体提取表/模型,但无法弄清楚。用例 - 我们需要随着时间的推移构建一组IED条款,并希望Stanford管道在文本文件中找到条款。用新术语扩展斯坦福NER术语
看看是否这是前
请看看http://nlp.stanford.edu/software/regexner/来看看如何使用它的东西有人做了。它允许你指定一个短语映射到实体类型的文件。当你想更新映射时,你更新文件并重新运行斯坦福管道。
如果你有兴趣在如何真正学习模式的条件随着时间的推移,你可以看看我们的模式学习系统:http://nlp.stanford.edu/software/patternslearning.shtml
你能指定要应用的标签?
要使用RegexNER所有你需要做的是建立一个文件,每个表格的第一行输入:
TEXT_PATTERN \ TTAG
你会把所有你想要的东西在你的自定义词典到一个文件,说custom_dictionary.txt
我被IED假设你的意思
https://en.wikipedia.org/wiki/Improvised_explosive_device?
所以你的文件可能是这样的:
VBIED \ tIED_TERM
粘性炸弹\ tIED_TERM
RCIED \ tIED_TERM
新国\ tLOCATION
新人物\ tPERSON
(注意堆栈溢出有一些奇怪的格式,不应该有每个项目之间的空行,这应该是每行1项!!)
如果然后运行这个命令:
的Java -mx1g -cp“*”埃杜。 stanford.nlp.pipeline.StanfordCoreNLP -annotators '记号化,SSPLIT,POS,引理,regexner,NER' -file sample_input.txt -regexner.mapping custom_dictionary.txt
你会标记sample_input.txt
更新是只是更新的问题custom_dictionary.txt
有一件事要注意,如果先在注释器列表中先放入“ner”或“regexner”,那么这很重要。
如果您的最高优先级是使用您的专用术语(例如IED_TERM)进行标记,那么我会首先在管道中运行regexner,因为标记器之间如何相互覆盖有一些棘手的问题。
我忘了提及我们指向RegexNER,并不清楚我们如何编写一个接口来提交新事物,人物或地点成为提取词典的一部分。 –