我想解析一个简历以获得不同的标题和内容,其中包括项目符号,段落,URL。我有.doc/.docx格式的简历。目前的研究导致在Java中恢复解析器
1.从.doc文件构建一个xml文件,然后
2.使用JDOM构建一个xml解析器。
有没有其他方法或更好的方法来做到这一点? 有些算法可以帮助识别简历中的结构?
我想解析一个简历以获得不同的标题和内容,其中包括项目符号,段落,URL。我有.doc/.docx格式的简历。目前的研究导致在Java中恢复解析器
1.从.doc文件构建一个xml文件,然后
2.使用JDOM构建一个xml解析器。
有没有其他方法或更好的方法来做到这一点? 有些算法可以帮助识别简历中的结构?
看起来像你在正确的方向。 简单的方法是: 一旦您确定信息并进一步移动,您只需根据+/-步长横切计算出的空格,并确定结果。
我相信你正在使用NLP方法,它可以帮助你获得接近的数据,然后你可以根据你的经验去除噪音。
或简单去拿一些已经建立。我建议你RChilli CV Parsing或其他像租用或sovren和讨论你的需要。我相信你得到一些信息
感谢 -K
有趣 - 我在我们使用Solr的识别身份我一个解决方案工作。
另一种方法是 - 您可以使用Apache Solr/index文档并获取分面搜索。
唯一的挑战是如何建立图书馆。这将比Apache POI短得多和简单。
让我知道你是否需要帮助?
我正在阅读关于solr,但我不太明白它会如何工作。我运行start.jar,然后使用post.jar将一个csv文件编入索引,但我从此卡住了。你也可以解释我怎样才能将它导入到我现有的Java项目中?谢谢 – akritaag
我现在正在使用支持Java中的Word文档的Apache POI。它更容易在这方面工作。 – akritaag
所以你想使用Apache工具...这是完美的,但你需要带来很多像Apache的opennlp插件..使用它们,你看到你开始获取数据 –
我现在试图实现opennpl.Thank的功能你的头抬起来 – akritaag