-1

我目前正在学习项目中从个人简历中提取个人姓名。姓名提取 - 简历/简历 - 斯坦福NER/OpenNLP

目前,我正在与斯坦福大学NER和OpenNLP合作,这两种方法在开箱即用方面都取得了一定的成功,倾向于在“非西方”类型名称(没有针对任何人的攻击)上挣扎。

我的问题是 - 定的普遍缺乏句子结构或上下文相对于一个人的名字在CV /简历,我是可能获得通过创建一个CV语料库一些类似于在名称标识任何显著的改善?

我最初的想法是,我可能有一句分裂一个更大的成功,除去明显的文字和应用逻辑位,使对个人的名字最好的猜测。

如果一个名字出现在结构化的句子中,我可以看到培训是如何工作的,但是作为一个没有语境的独立实体(例如Akbar Agho),我怀疑无论培训如何,它都会很困难。

有AI的水平,如果给予足够的数据将开始制定一种模式,找到一个名字或者我应该也许只是去应用基于逻辑列提取的水平?

我会很感激的人的想法,意见和建议。

附注:我已经使用PHP与Appache提卡做从文件/ PDF的初始文本提取和我通过PHP /命令行斯坦福大学和OpenNLP试验。

克里斯

回答

0

我猜你可能会提高姓名识别,如果你创建一个CV语料库,这也取决于你的阴茎的大小(你可以通过收集CV爬行等网站语料库)。

利用数据挖掘可能是,在我看来,你最好的选择。我不清楚Apache Tika提出了哪些选择,但是关于CV布局的信息越多越好。例如,模式应该可能依赖于这样一个事实,即姓名位于文档的顶部,并接近出生日期/婚姻状况/图像/地址。

在这种情况下,你将不会有任何更多的顺序标签的情况下(如斯坦福NER一样):在简历中,名字通常不是由文字环绕。它应该最可能是模式可以转换为(数字或二进制)属性的候选文本片段的分类任务。

模式提取器可以很容易地找到或实现,应该被视为机器学习之前的预处理。不要忘记,也使用名字和姓氏(以及频繁的前缀/后缀:-son,-vitch,-man,Ben-,de等)列表,这些确实是不可避免的标准来决定哪些片段是可能是一个名字。由于其他姓名经常出现在简历中,这就是为什么我相信使用布局也应该是一个重要特征。

我很想知道哪些功能是高效的......你能告诉我们吗?

1

我对这个问题的2分钱小费。

因此,坚持使用上面列出的NER标签将成为我的第一块障碍,如果我可以在那里识别出这些东西,那么中提琴,如果不是,那么我建议你去做一个基于规则的方法。 当我们谈论简历时,候选人的姓名通常在简历的前10%行中。在许多情况下,它还跟着“名称:Ankit Solanki”如果失败尝试找到电子邮件地址并与您从简历中的其他文本获得的不同NP对相匹配,那么您找到的匹配度最好的那个成为你的名字,因为在大多数情况下,像简历这样的专业用户的电子邮件地址将有他们的名字,例如john.mayer89abc.com将被清理到john.mayer然后经过一个算法找到最近的名词短语对清洁的电子邮件名称。

让我知道你的想法。

最佳,

ANKIT