最近我一直试图用斯坦福核心NLP训练n-gram实体。我遵循以下教程 - http://nlp.stanford.edu/software/crf-faq.shtml#b斯坦福NLP训练n-gram NER
使用此功能,我只能指定单字符标记及其所属的类。任何人都可以引导我,让我可以将它扩展到n-gram。我试图从聊天数据集中提取已知的实体,如电影名称。
如果我错误地解释了斯坦福教程并且可以用于n-gram培训,请指导我。
什么我坚持的是下列财产
#structure of your training file; this tells the classifier
#that the word is in column 0 and the correct answer is in
#column 1
map = word=0,answer=1
这里的第一列是字(单gram),第二列是实体,例如
CHAPTER O
I O
Emma PERS
Woodhouse PERS
现在,我需要培训像绿巨人,泰坦尼克等已知实体(比如电影名称)作为电影,这种方法很容易。但如果我需要训练我知道你去年夏天做了什么或宝宝出门,最好的方法是什么?
尊敬的@Arun您是否成功地培训NER为n-grams?我想培养像科学硕士:教育,电子博士学位:教育。你能指导我吗?谢谢 – 2017-01-19 13:43:27
@KhalidUsman,感谢您的支持。我已经在下面的答案中使用了LingPipe来实现这一点。训练数据集体积相当不错。任何模型都可以正常工作,这取决于你提供的数据集有多好。 – 2017-01-19 16:48:32