在Java中恢复解析器

我想解析一个简历以获得不同的标题和内容，其中包括项目符号，段落，URL。我有.doc/.docx格式的简历。目前的研究导致在Java中恢复解析器

1.从.doc文件构建一个xml文件，然后
2.使用JDOM构建一个xml解析器。

有没有其他方法或更好的方法来做到这一点？有些算法可以帮助识别简历中的结构？

2014-02-24 akritaag

-1

看起来像你在正确的方向。简单的方法是：一旦您确定信息并进一步移动，您只需根据+/-步长横切计算出的空格，并确定结果。

我相信你正在使用NLP方法，它可以帮助你获得接近的数据，然后你可以根据你的经验去除噪音。

或简单去拿一些已经建立。我建议你RChilli CV Parsing或其他像租用或sovren和讨论你的需要。我相信你得到一些信息

感谢 -K

2014-02-26 14:37:42

我现在正在使用支持Java中的Word文档的Apache POI。它更容易在这方面工作。 – akritaag

所以你想使用Apache工具...这是完美的，但你需要带来很多像Apache的opennlp插件..使用它们，你看到你开始获取数据 –

我现在试图实现opennpl.Thank的功能你的头抬起来 – akritaag

有趣 - 我在我们使用Solr的识别身份我一个解决方案工作。

另一种方法是 - 您可以使用Apache Solr/index文档并获取分面搜索。

唯一的挑战是如何建立图书馆。这将比Apache POI短得多和简单。

让我知道你是否需要帮助？

2014-02-27 08:13:45 toprecruiters

我正在阅读关于solr，但我不太明白它会如何工作。我运行start.jar，然后使用post.jar将一个csv文件编入索引，但我从此卡住了。你也可以解释我怎样才能将它导入到我现有的Java项目中？谢谢 – akritaag

回答