0

我目前正在尝试提取信息,例如来自商业文件的发件人或收件人如账单。这些文档是用ocr软件处理成xml文件的,所以它们用格式化特征进行了注释。我想通过使用发件人和收件人等功能手动添加一个类似的文档来提取新文档中的特定信息。信息提取 - 商业文档

所以我的问题是,如果有一个学习或匹配算法,能够提取特定的数据通过比较只有一个或两个类似文件的例子。如果是的话:是否有某种Java框架能够做到这一点?

此致谢天谢地

maggu

+0

你想如何匹配?如果这两份文件没有共同点呢?当有一份文件时,我们是否在寻找一个完美匹配? – Mark

+0

让我们假设文档是相似的,例如基于相同模板的两张账单。在注释第一个之后,我想提取第二个,第三个......等等的信息。 – maggu

回答

0

如果XML结构始终是相同的(使用相同的模板):

只需保存该信息所在的位置,因此选择节点的XML父节点你知道信息的路径。不应该是一个问题 - 微不足道的任务。


如果你要搜索的信息:

它可以通过创建特定的特征提取规则的工作,然后使用该功能来训练支持向量机,用于检测的信息所在的区域。

我曾经问过类似的问题Algorithm to match natural text in mail

但这远非微不足道,肯定需要超过一两个培训文件。