我试图使用Perl从PDF文件中提取文本/图像/表格。使用Perl从PDF中提取图像/文本
我尝试使用CAM::PDF
这是不是在文本中提取,但作为一些其他格式。
是否有一种方法可以使用Perl模块从PDF中提取文本/图像/表格?
我试图使用Perl从PDF文件中提取文本/图像/表格。使用Perl从PDF中提取图像/文本
我尝试使用CAM::PDF
这是不是在文本中提取,但作为一些其他格式。
是否有一种方法可以使用Perl模块从PDF中提取文本/图像/表格?
使用CAM::PDF。它有一些方法,可以帮助你提取图像或其他元素:
$doc->getProperty($pagenum, $propertyname)
Each PDF page contains a list of resources that it uses (images, fonts, etc). getPropertyNames() returns an array of the names of those resources. getProperty() returns a node representing a named property (most likely a reference node).
我用CAM :: PDF -J Atwal。但我没有得到正确的输出标准输出。输出是这样的: ↓◄↑◄§◄ù↨←▬§§ 0 X♥6 \䎁♥,3 ¶◄¶§◄§∟◄§▬→ 0 X♥6 \!䎁♥6 HULDO♥♠ !§!§►¶↑¶!►!!!►!▬ ' 0 X♥6 \䎁♥8 VHU指令 DGPLQ ' HQLDO►RI►6 HUYLFH♥♂“ ,R 6♀♥5 HVXO $ YDLODELOLW \ §!♥PLQXWHV♥¶♥VHFRQG ¶§¶♥PLOOLVHFRQGV ¶ 5 ħ由于F R年小时】U Hģ♥ž升宽ķl问♥¶♥P l问X W H ♥ ([H˚FX W L年小时♥6 X P P d U \♥5 H S RüW¯¯↔♥ $ 5 3乙▬▬¶↑B',R 6 –
希望你不尝试打印在stdout图像;)。尝试将图像内容保存到文件中,然后在图像浏览器中打开该文件。 –
这不是图像而是文字。即使那样它也是这样打印的。 –
@ priya..i试过这个模块,其做工精细的PDF文本提取..
use strict;
use warnings;
use PDF::OCR::Thorough;
my $filename = "pdf.pdf";
my $pdf = PDF::OCR::Thorough->new($filename);
my $text = $pdf->get_text();
print "$text";
是否有一个例子PDF您可以链接到的在线文件? – Borodin
来自Poppler的'pdftohtml'。没有必要失去理智。 –