2014-11-03 75 views
0

我需要使用linux shell裁剪一个PDF文档,然后在裁剪的pdf中提取文本。pdf真正的裁剪

我的想法是使用pdfcrop linux工具裁剪一个pdf,然后使用txt2pdf文本提取工具来提取裁剪区域中的文本,但我意识到我在思考图像,当我尝试要做到这一点,结果与在原始的,没有裁剪的pdf上做的相同。

我想这是一个图层问题。由于pdf格式与图层一起工作,如果我不“裁剪”所有图层,结果会包含来自所有图层的所有信息,而我不想要这些信息。

如果有人有任何想法,我可以做一个真正的“所有图层裁剪”在PDF中,我将非常感激。如果可能或者我应该开始考虑另一种解决方案。

TY

回答

1

它不是层,它的一个事实,即裁剪PDF文件通常需要简单的设置裁剪框,它根本不会改变PDF的实际内容(比裁剪框等)。大多数文本提取代码将忽略CropBox并提取所有文本....

您可以通过一些努力,使用Ghostscript生成真正裁剪的PDF(尽管注意部分裁剪的字形仍将包含在内),然后从中提取文本。但这很丑陋。

或者Ghostscript和MuPDF都可以提取带有坐标信息的文本,这可能足以满足您的需求。

+0

Ty,我现在就去试试。 – 2014-11-04 07:27:04

+0

我终于使用PDFminer文本提取工具。如果你以xml格式提取,你会得到坐标,正如你所说,这对我很有用。 Ty Kens – 2014-11-04 08:34:36