2014-02-24 26 views
0

我想解析一个简历以获得不同的标题和内容,其中包括项目符号,段落,URL。我有.doc/.docx格式的简历。目前的研究导致在Java中恢复解析器

1.从.doc文件构建一个xml文件,然后
2.使用JDOM构建一个xml解析器。

有没有其他方法或更好的方法来做到这一点? 有些算法可以帮助识别简历中的结构?

回答

-1

看起来像你在正确的方向。 简单的方法是: 一旦您确定信息并进一步移动,您只需根据+/-步长横切计算出的空格,并确定结果。

我相信你正在使用NLP方法,它可以帮助你获得接近的数据,然后你可以根据你的经验去除噪音。

或简单去拿一些已经建立。我建议你RChilli CV Parsing或其他像租用或sovren和讨论你的需要。我相信你得到一些信息

感谢 -K

+1

我现在正在使用支持Java中的Word文档的Apache POI。它更容易在这方面工作。 – akritaag

+0

所以你想使用Apache工具...这是完美的,但你需要带来很多像Apache的opennlp插件..使用它们,你看到你开始获取数据 –

+0

我现在试图实现opennpl.Thank的功能你的头抬起来 – akritaag

0

有趣 - 我在我们使用Solr的识别身份我一个解决方案工作。

另一种方法是 - 您可以使用Apache Solr/index文档并获取分面搜索。

唯一的挑战是如何建立图书馆。这将比Apache POI短得多和简单。

让我知道你是否需要帮助?

+0

我正在阅读关于solr,但我不太明白它会如何工作。我运行start.jar,然后使用post.jar将一个csv文件编入索引,但我从此卡住了。你也可以解释我怎样才能将它导入到我现有的Java项目中?谢谢 – akritaag