2009-06-17 44 views

回答

2

您或许可以从解决方案入手"How do I get character offset information from a pdf document?"这将为您提供文档中字符和/或子字符串的x,y,宽度和高度。从那里开始,更难的部分就是把这些角色组合成空间不同的区域。不能保证页面上的空间分组文本在文件格式的语法上彼此接近...

+0

谢谢,克里斯。我不会说Perl(并且它不是我所针对的平台上的),但是从我的有限理解来看,它似乎是通过逐字检查实际的字体度量来确定文本字符串的宽度;我认为没有更高层次的方法? 也谢谢你对PDF格式非结构化的警告! – hatfinch 2009-06-18 12:23:19