2011-05-28 46 views
0

我有大量的文件需要解析。OCR-Engine Tesseract:如何在大量文件上自动识别文本

他们看起来像这些的:见一个例子:

http://www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Image

http://www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Html

嗯,我想,使用图片:: OCR ::正方体会感到很有趣。我想我的Tesseract解析这个(http://search.cpan.org/~leocharre/Image-OCR-Tesseract-1.24/lib/Image/OCR/Tesseract.pod

use Image::OCR::Tesseract 'get_ocr'; 

my $image = './hi.jpg'; 

my $text = get_ocr($image); 

这是正确的语法?

+2

你的问题到底是什么?是你发布的工作? – Mat 2011-05-28 08:36:13

+0

嗨Mat我没有使用OCR的经验 - 我使用tesseract进行了第一次试用 - 但我不确定我是否应用了正确的代码!?我希望找到一些在Tesseract方面有更多经验的人员,这些经验会提供一些帮助/经验不足 - 以及最佳实践 – zero 2011-05-28 09:09:09

回答

0

您可以下载并编译tesseract的最新版本。然后,您可以编写一个(shell或Perl)脚本来提供所有文件进行解析。