0
我需要使用linux shell裁剪一个PDF文档,然后在裁剪的pdf中提取文本。pdf真正的裁剪
我的想法是使用pdfcrop linux工具裁剪一个pdf,然后使用txt2pdf文本提取工具来提取裁剪区域中的文本,但我意识到我在思考图像,当我尝试要做到这一点,结果与在原始的,没有裁剪的pdf上做的相同。
我想这是一个图层问题。由于pdf格式与图层一起工作,如果我不“裁剪”所有图层,结果会包含来自所有图层的所有信息,而我不想要这些信息。
如果有人有任何想法,我可以做一个真正的“所有图层裁剪”在PDF中,我将非常感激。如果可能或者我应该开始考虑另一种解决方案。
TY
Ty,我现在就去试试。 – 2014-11-04 07:27:04
我终于使用PDFminer文本提取工具。如果你以xml格式提取,你会得到坐标,正如你所说,这对我很有用。 Ty Kens – 2014-11-04 08:34:36