pdf真正的裁剪

2014-11-03 75 views 0 likes

我需要使用linux shell裁剪一个PDF文档，然后在裁剪的pdf中提取文本。pdf真正的裁剪

我的想法是使用pdfcrop linux工具裁剪一个pdf，然后使用txt2pdf文本提取工具来提取裁剪区域中的文本，但我意识到我在思考图像，当我尝试要做到这一点，结果与在原始的，没有裁剪的pdf上做的相同。

我想这是一个图层问题。由于pdf格式与图层一起工作，如果我不“裁剪”所有图层，结果会包含来自所有图层的所有信息，而我不想要这些信息。

如果有人有任何想法，我可以做一个真正的“所有图层裁剪”在PDF中，我将非常感激。如果可能或者我应该开始考虑另一种解决方案。

回答

它不是层，它的一个事实，即裁剪PDF文件通常需要简单的设置裁剪框，它根本不会改变PDF的实际内容（比裁剪框等）。大多数文本提取代码将忽略CropBox并提取所有文本....

您可以通过一些努力，使用Ghostscript生成真正裁剪的PDF（尽管注意部分裁剪的字形仍将包含在内），然后从中提取文本。但这很丑陋。

或者Ghostscript和MuPDF都可以提取带有坐标信息的文本，这可能足以满足您的需求。

2014-11-03 16:15:35 KenS

Ty，我现在就去试试。 – 2014-11-04 07:27:04

我终于使用PDFminer文本提取工具。如果你以xml格式提取，你会得到坐标，正如你所说，这对我很有用。 Ty Kens – 2014-11-04 08:34:36