2009-11-23 109 views
5

您能否告诉我如何使用PHP从PDF文档中提取内容?格式化是我在这里面临的主要问题。因此,让我知道,是否有一些方法可以提取相同格式的内容并将其显示在在线文本编辑器中。使用PHP从pdf中提取内容

感谢

回答

0

据我所知,它是而不是可能使用PHP在运行中将PDF转换为可编辑的HTML,同时保留格式。有大量的桌面应用程序,所有尝试从PDF中提取数据有时更多,有时不太可靠的结果。我会说目前这不是现实可行的,你所能做的就是使用XPDF或其他命令行工具来提取纯文本。

它可能不同于那个基于XML的新PDF格式,但我还没有真正了解这一点。

随意证明我错了,当然 - 如果有解决方案,我会非常感兴趣。

1

看一看XPDF

我想你可以在编辑器中显示它做

$text = shell_exec("pdftotext $pdffile"); 

作为?那么,哪位编辑? 要保留某种类型的格式信息,并假设您使用的是Web编辑器,则表示HTML编辑器,您可以将其转换为HTML。也许有其他工具可用,但由于我使用xpdf,我遇到了基于xpdf的this转换器。

基本用法

pdftohtml -noframes -c test.pdf test.html 

为了得到它到你喜欢的编辑器

echo file_get_contents('test.html'); 

您可能需要包装内的PHP函数/类的东西。你可能想要添加安全措施和什么。

+0

任何在线自定义开发的网站编辑器。 – jose