我有一个很大的PDF文件,是建筑物的地板图。它具有所有办公家具的图层,包括座位位置的文本框。用php阅读pdf文件
我的目标是用PHP读取该文件,在文档中搜索文本图层,获取文件中的内容和坐标。这样我可以绘制座位位置 - > x/y坐标。
有什么办法通过PHP来做到这一点? (或甚至红宝石或Python,如果这是必要的)
我有一个很大的PDF文件,是建筑物的地板图。它具有所有办公家具的图层,包括座位位置的文本框。用php阅读pdf文件
我的目标是用PHP读取该文件,在文档中搜索文本图层,获取文件中的内容和坐标。这样我可以绘制座位位置 - > x/y坐标。
有什么办法通过PHP来做到这一点? (或甚至红宝石或Python,如果这是必要的)
退房FPDF(含FPDI):
http://www.setasign.de/products/pdf-php-solutions/fpdi/
这些都会让你打开一个PDF和PHP添加内容到它。我猜你还可以使用他们的功能来搜索现有的内容以获取所需的值。
另一个可能的库是TCPDF:http://www.tecnick.com/public/code/cp_dpage.php?aiocp_dp=tcpdf
更新添加一个更现代化的图书馆:PDF Parser
至于解析PDF到PHP,fpdf缩短pdfparser http: //www.pdfparser.org/documentation有一个干净而直观的编程界面 – Nate 2015-06-24 02:17:15
你可能想也尝试这种应用http://pdfbox.apache.org/。一个工作示例可以在https://www.jinises.com
有一个php库(pdfparser),它完全符合你的需求。
项目网站
github上
https://github.com/smalot/pdfparser
演示页/ API
包括在您的项目pdfparser后,您可以从mypdf.pdf
得到的所有文字,像这样:
<?php
$parser = new \installpath\PdfParser\Parser();
$pdf = $parser->parseFile('mypdf.pdf');
$text = $pdf->getText();
echo $text;//all text from mypdf.pdf
?>
Simular您可以从PDF获得元数据WEL为获取PDF对象(例如图像) 。
标记代码是否包含“坐标”?如果不是,只要你想,你可以搜索。 PHP无法定位PDF文件的像素坐标。 试着解释你的“问题”更详细些,也许通过使用图片等。 – 2009-10-21 19:18:03
你好,你找到了你的问题的答案?因为我一直用simillar的问题,我找不到解决方案...如果你找到了一个,你能告诉我你是如何获得PDF文件的图像坐标?.. – 2013-01-17 10:07:57
@PigalevPavel对不起,我没有:( – 2013-01-17 21:22:54