如何打开PDF并阅读它？

我该如何打开一个PDF文件并用Python读取它的一些内容（这种语言是首选的，但是Ruby，Perl或PHP也可以）（如果它被识别（而不仅仅是一个图像））或报告它是没有OCR是不可能的？ TIA如何打开PDF并阅读它？

更新：感谢您的解决方案，我相信其中一些将适合我。

@RichH，我有一个pdf文件，不知道它是基于图像还是文本。我正在寻找一种工具来帮助我发现这种情况，并在基于文本的情况下提取其中的一些内容。

2009-11-08 Fluffy

他们是图像的PDF文件或文本的PDF文件（你可以通过尝试文本进行复制查出手动）？你想读什么？文本？图片？布局？你可能也想重新回答你的问题 - 我不明白下半场。 – RichH 2009-11-08 20:07:55

此链接可以帮助您：http://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text。它是'它'的内容;-) – RedGlyph 2009-11-08 20:13:25

你可能会发现this线程有用。 – jkndrkn 2009-11-08 20:04:49

对PDF进行解析并使之变得有用很困难，因为格式的重点在于保持布局，因此可以按照每个字母单独放置的方式存储文本，具体取决于文本可能也存储为图形。

图书馆阅读PDF文件，我知道包括具有PDF component，其中包括一个PDF解析器可以从PHP使用，并给出了或多或少usaable结果和商业PDFlib它提供了非常有用的结果，并提供绑定到不同的Zend框架语言。

2009-11-08 20:18:31 johannes

在Perl，看看这些模块：

2009-11-08 20:49:18 Ether

回答