使用Perl从PDF中提取图像/文本

我试图使用Perl从PDF文件中提取文本/图像/表格。使用Perl从PDF中提取图像/文本

我尝试使用CAM::PDF这是不是在文本中提取，但作为一些其他格式。

是否有一种方法可以使用Perl模块从PDF中提取文本/图像/表格？

2016-04-27 Priya Samy

是否有一个例子PDF您可以链接到的在线文件？ – Borodin

来自Poppler的'pdftohtml'。没有必要失去理智。 –

使用CAM::PDF。它有一些方法，可以帮助你提取图像或其他元素：

$doc->getProperty($pagenum, $propertyname) 
Each PDF page contains a list of resources that it uses (images, fonts, etc). getPropertyNames() returns an array of the names of those resources. getProperty() returns a node representing a named property (most likely a reference node).

来源

2016-04-29 14:16:35

我用CAM :: PDF -J Atwal。但我没有得到正确的输出标准输出。输出是这样的： ↓◄↑◄§◄ù↨←▬§§ 0 X♥6 \䎁♥，3 ¶◄¶§◄§∟◄§▬→ 0 X♥6 \！䎁♥6 HULDO♥♠ ！§！§►¶↑¶！►！！！►！▬ ' 0 X♥6 \䎁♥8 VHU指令 DGPLQ ' HQLDO►RI►6 HUYLFH♥♂“ ，R 6♀♥5 HVXO $ YDLODELOLW \ §！♥PLQXWHV♥¶♥VHFRQG ¶§¶♥PLOOLVHFRQGV ¶ 5 ħ由于F R年小时】U Hģ♥ž升宽ķl问♥¶♥P l问X W H ♥ （[H˚FX W L年小时♥6 X P P d U \♥5 H S RüW¯¯↔♥ $ 5 3乙▬▬¶↑B'，R 6 –

希望你不尝试打印在stdout图像;）。尝试将图像内容保存到文件中，然后在图像浏览器中打开该文件。 –

这不是图像而是文字。即使那样它也是这样打印的。 –

@ priya..i试过这个模块，其做工精细的PDF文本提取..

use strict; 
use warnings; 
use PDF::OCR::Thorough; 


my $filename = "pdf.pdf"; 

my $pdf = PDF::OCR::Thorough->new($filename); 
my $text = $pdf->get_text(); 
print "$text";

来源

2016-05-24 18:22:41

使用Perl从PDF中提取图像/文本

回答

相关问题