2017-04-06 36 views
0

我们有一个C#.Net应用程序,它使用Tesseract对.tiff文件进行光学字符识别(OCR)。下面是一个示例: Example tiff fiel that Tesseract readsTesseract OCR水平读取而非垂直读取C#

然后我们将数据输出到文本文件。但是,Tesseract正在以垂直方式读取数据。在我的例子形象,它读取TIFF为两列数据和数据从正方体输出这样的数据:

TYPE: 日期: 地址: 市: 州: 业主: 所有者类型: 面积: 按揭: 2017年4月6日 100主街 一些城市 一些国家 李四 主要 10.25 是

我们需要的是对的Tesseract水平读取TIFF文件,并具有输出是这样的:

TYPE:12345 日期:2017年4月6日 地址:100主街 城市:广州市部分城区 状态:一些国家 业主:李四 所有者类型:初级 面积:10.25 抵押贷款:是

我们试图为正方体的各种页面分割方法的选择,但他们都产生相同的结果。

有没有人遇到过这个问题?任何人有任何想法?

回答

0

我找到了解决方案。 Tesseract有一组配置文件。其中几个配置文件是设置tessedit_pageseg_mode。该设置在所有配置文件中都设置为1。 1=Automatic page segmentation with OSD.OSD=Orientation and script detection.

底线,这些配置文件设置覆盖了我们的命令行参数。一旦我删除从配置文件中的tessedit_pageseg_mode参数,我们的

命令行参数

-psm 6工作并产生所需格式的输出数据。

psm=Page Segmentation Mode. 6=Assume a single uniform block of text

-psm 4还曾

psm=Page Segmentation Mode. 4=Assume a single column of text of variable sizes