0
我目前正在尝试提取信息,例如来自商业文件的发件人或收件人如账单。这些文档是用ocr软件处理成xml文件的,所以它们用格式化特征进行了注释。我想通过使用发件人和收件人等功能手动添加一个类似的文档来提取新文档中的特定信息。信息提取 - 商业文档
所以我的问题是,如果有一个学习或匹配算法,能够提取特定的数据通过比较只有一个或两个类似文件的例子。如果是的话:是否有某种Java框架能够做到这一点?
此致谢天谢地
maggu
你想如何匹配?如果这两份文件没有共同点呢?当有一份文件时,我们是否在寻找一个完美匹配? – Mark
让我们假设文档是相似的,例如基于相同模板的两张账单。在注释第一个之后,我想提取第二个,第三个......等等的信息。 – maggu