Tesseract OCR水平读取而非垂直读取C＃

我们有一个C＃.Net应用程序，它使用Tesseract对.tiff文件进行光学字符识别（OCR）。下面是一个示例： Tesseract OCR水平读取而非垂直读取C＃

然后我们将数据输出到文本文件。但是，Tesseract正在以垂直方式读取数据。在我的例子形象，它读取TIFF为两列数据和数据从正方体输出这样的数据：

TYPE：日期：地址：市：州：业主：所有者类型：面积：按揭： 2017年4月6日 100主街一些城市一些国家李四主要 10.25 是

我们需要的是对的Tesseract水平读取TIFF文件，并具有输出是这样的：

TYPE：12345 日期：2017年4月6日地址：100主街城市：广州市部分城区状态：一些国家业主：李四所有者类型：初级面积：10.25 抵押贷款：是

我们试图为正方体的各种页面分割方法的选择，但他们都产生相同的结果。

有没有人遇到过这个问题？任何人有任何想法？

来源

2017-04-06 MikeTWebb

我找到了解决方案。 Tesseract有一组配置文件。其中几个配置文件是设置tessedit_pageseg_mode。该设置在所有配置文件中都设置为1。 1=Automatic page segmentation with OSD.OSD=Orientation and script detection.

底线，这些配置文件设置覆盖了我们的命令行参数。一旦我删除从配置文件中的tessedit_pageseg_mode参数，我们的

命令行参数

-psm 6工作并产生所需格式的输出数据。

psm=Page Segmentation Mode. 6=Assume a single uniform block of text

-psm 4还曾

psm=Page Segmentation Mode. 4=Assume a single column of text of variable sizes

来源

2017-04-06 20:28:05 MikeTWebb

Tesseract OCR水平读取而非垂直读取C＃

回答

相关问题