我目前正在学习项目中从个人简历中提取个人姓名。姓名提取 - 简历/简历 - 斯坦福NER/OpenNLP
目前,我正在与斯坦福大学NER和OpenNLP合作,这两种方法在开箱即用方面都取得了一定的成功,倾向于在“非西方”类型名称(没有针对任何人的攻击)上挣扎。
我的问题是 - 定的普遍缺乏句子结构或上下文相对于一个人的名字在CV /简历,我是可能获得通过创建一个CV语料库一些类似于在名称标识任何显著的改善?
我最初的想法是,我可能有一句分裂一个更大的成功,除去明显的文字和应用逻辑位,使对个人的名字最好的猜测。
如果一个名字出现在结构化的句子中,我可以看到培训是如何工作的,但是作为一个没有语境的独立实体(例如Akbar Agho),我怀疑无论培训如何,它都会很困难。
有AI的水平,如果给予足够的数据将开始制定一种模式,找到一个名字或者我应该也许只是去应用基于逻辑列提取的水平?
我会很感激的人的想法,意见和建议。
附注:我已经使用PHP与Appache提卡做从文件/ PDF的初始文本提取和我通过PHP /命令行斯坦福大学和OpenNLP试验。
克里斯