2017-12-27 945 views
0

我试图在Ubuntu上使用pytesseract和tesseract命令行将扫描页面转换为文本。结果显着不同(pytesseract表现比tesseract命令行更好),我无法理解为什么。我查看了参数的默认值,并尝试在tesseract命令行中更改一些参数值(如psm),但我无法获得与pytesseract相同的结果。由于pytesseract中缺少适当的文档,我无法弄清楚使用了什么参数默认值。pytesseract结果与tesseract命令行结果不同

这里是我的pytesseract代码 print(pytesseract.image_to_string(Image.open('test.tiff'))

回答

0

望着pytesseract的源代码,看起来像总是被转换为.bmp文件。 使用Tesseract在命令行中处理.bmp文件和psm为6的结果与pytesseract结果相同。 另外,tesseract只能处理未压缩的bmp文件。因此,如果使用ImageMagick将.pdf转换为.bmp,则以下操作将起作用

convert -density 300 -quality 100 mypdf.pdf BMP3:mypdf.bmp 
tesseract mypdf.bmp -psm 6 mypdf txt 
相关问题