2009-11-08 170 views
2

我该如何打开一个PDF文件并用Python读取它的一些内容(这种语言是首选的,但是Ruby,Perl或PHP也可以)(如果它被识别(而不仅仅是一个图像))或报告它是没有OCR是不可能的? TIA如何打开PDF并阅读它?

更新:感谢您的解决方案,我相信其中一些将适合我。

@RichH,我有一个pdf文件,不知道它是基于图像还是文本。我正在寻找一种工具来帮助我发现这种情况,并在基于文本的情况下提取其中的一些内容。

+0

他们是图像的PDF文件或文本的PDF文件(你可以通过尝试文本进行复制查出手动)?你想读什么?文本?图片?布局?你可能也想重新回答你的问题 - 我不明白下半场。 – RichH 2009-11-08 20:07:55

+1

此链接可以帮助您:http://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text。它是'它'的内容;-) – RedGlyph 2009-11-08 20:13:25

+0

你可能会发现this线程有用。 – jkndrkn 2009-11-08 20:04:49

回答

1

对PDF进行解析并使之变得有用很困难,因为格式的重点在于保持布局,因此可以按照每个字母单独放置的方式存储文本,具体取决于文本可能也存储为图形。

图书馆阅读PDF文件,我知道包括具有PDF component,其中包括一个PDF解析器可以从PHP使用,并给出了或多或少usaable结果和商业PDFlib它提供了非常有用的结果,并提供绑定到不同的Zend框架语言。