2016-04-27 51 views
2

我试图使用Perl从PDF文件中提取文本/图像/表格。使用Perl从PDF中提取图像/文本

我尝试使用CAM::PDF这是不是在文本中提取,但作为一些其他格式。

是否有一种方法可以使用Perl模块从PDF中提取文本/图像/表格?

+1

是否有一个例子PDF您可以链接到的在线文件? – Borodin

+0

来自Poppler的'pdftohtml'。没有必要失去理智。 –

回答

0

使用CAM::PDF。它有一些方法,可以帮助你提取图像或其他元素:

$doc->getProperty($pagenum, $propertyname) 
Each PDF page contains a list of resources that it uses (images, fonts, etc). getPropertyNames() returns an array of the names of those resources. getProperty() returns a node representing a named property (most likely a reference node). 
+0

我用CAM :: PDF -J Atwal。但我没有得到正确的输出标准输出。输出是这样的: ↓◄↑◄§◄ù↨←▬§§ 0 X♥6 \䎁♥,3 ¶◄¶§◄§∟◄§▬→ 0 X♥6 \!䎁♥6 HULDO♥♠ !§!§►¶↑¶!►!!!►!▬ ' 0 X♥6 \䎁♥8 VHU指令 DGPLQ ' HQLDO►RI►6 HUYLFH♥♂“ ,R 6♀♥5 HVXO $ YDLODELOLW \ §!♥PLQXWHV♥¶♥VHFRQG ¶§¶♥PLOOLVHFRQGV ¶ 5 ħ由于F R年小时】U Hģ♥ž升宽ķl问♥¶♥P l问X W H ♥ ([H˚FX W L年小时♥6 X P P d U \♥5 H S RüW¯¯↔♥ $ 5 3乙▬▬¶↑B',R 6 –

+0

希望你不尝试打印在stdout图像;)。尝试将图像内容保存到文件中,然后在图像浏览器中打开该文件。 –

+0

这不是图像而是文字。即使那样它也是这样打印的。 –

1

@ priya..i试过这个模块,其做工精细的PDF文本提取..

use strict; 
use warnings; 
use PDF::OCR::Thorough; 


my $filename = "pdf.pdf"; 

my $pdf = PDF::OCR::Thorough->new($filename); 
my $text = $pdf->get_text(); 
print "$text";