我的问题:添加重复(隐藏)文本层到PDF额外的搜索
我有很多复杂的变音符号(例如,S,S,R,ǎ等罗马字体的PDF )。为了更容易在pdf中搜索,我想添加一个额外的图层,就像在hocr中做的一样,其中同样的文本没有变音符号。
当使用全文搜索引擎时,我可以在同一位置(矢量)对多个词汇进行索引 - 我希望在这里获得相同的效果。
我已经阅读了大量有关将HOCR层扫描的图像,但我真的只是想复制文字图层,通过它通过剥离变音符号(够直白)的脚本,然后将其重新作为隐藏但可搜索图层。
任何人有任何建议吗? (涉及到任何平台,语言,库或工具链的解决方案将是有益的!)
谢谢:)
编辑:请让我知道如果这个问题还不清楚。
虽然你的回答是来自一段时间,但如果你可以发布你的脚本或链接到它,那将是非常好的。 – Mark 2014-06-27 21:08:51