如何使用PHP从PDF文档中提取文本?如何从PDF文档中提取文本?
(我不能使用其他工具,我没有root访问权限)
我发现了一些功能,纯文本的工作量,但他们没有处理好Unicode字符:
http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html
如何使用PHP从PDF文档中提取文本?如何从PDF文档中提取文本?
(我不能使用其他工具,我没有root访问权限)
我发现了一些功能,纯文本的工作量,但他们没有处理好Unicode字符:
http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html
下载class.pdf2text.php @https://pastebin.com/dvwySU1a(更新2014年4月的5)或http://www.phpclasses.org/browse/file/31030.html(需要注册)
代码:
include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf');
$a->decodePDF();
echo $a->output();
类并不适用于所有PDF格式的我测试过的工作,试试看,你可能会得到幸运:)
如果上述方法无效,请尝试http://pdfparser.org/
如果这里是pdf文件中的任何表格,那么它不会显示它。我想提取,因为它是以PDF格式显示PDF格式的文本。任何解决方案? – 2012-08-23 05:36:28
非常感谢...这个班级非常有用。在这个我只需要一个来自pdf的网址。任何方式来找到...? –
该类包含可能导致'头已发送'错误的输出缓冲区刷新。如果您禁用它(对于任何合理大小的文档),看似没有任何不良影响。 –
我知道这个话题是相当古老的,但这种需求仍然活着。 我看了很多文件,论坛和脚本,并建立一个新的先进的一个,它支持压缩和非压缩的PDF:
https://gist.github.com/smalot/6183152
希望它可以帮助EVERONE
似乎没有得到您的脚本输出。你有可以测试的PDF吗? –
这对我有用!谢谢 – kakoma
我在这里找到了一个好的:https://github.com/christian-vigh-phpclasses/PdfToText – dlofrodloh
你解决了这个? – 2012-08-23 05:35:00
链接不起作用!请纠正! – cwiggo
不明白为什么这个问题被认为是题外话,因为它是非常有用的,即使它可能会吸引“自以为是”的答案,但最好能看到不同的观点。也有很多点击。 – user3574492