Howto：使用C＃提高OCR之前的PDF质量

我正在创建一个服务，用于监视扫描文件的文件夹。一旦该文件在那里，该服务将其选中，并将其转换为可读的PDF。在这个过程中，该服务还会搜索条形码。在此之后，文本被提取，文件及其文本被存储到我们软件的数据库中。该位置基于条形码。Howto：使用C＃提高OCR之前的PDF质量

现在，对于OCR我们使用的是Atalasoft的SDK（http://www.atalasoft.com/）。此SDK中还包含条码识别器。

但是转换后的文本仍然存在一些错误。（我用其他OCR程序进行了一些测试，但Atalasoft出来很不错。）我正在寻找一些软件（SDK-kit），它允许我提高OCR用途PDF的质量。

我测试了Kofax VRS Elite（http://www.kofax.com/vrs-virtualrescan/）。我正在寻找类似的东西，但可以在使用某种SDK套件的服务中实现。

任何曾经这样做过，或有过类似问题的人？ thx提前！

来源

2011-07-06 Anthony Claeys

您可以尝试并完全遵循不同的路径：
查看您是否可以配置扫描仪直接扫描到PDF并在运行中执行OCR。利盟扫描仪可以做到这一点。这可以创建具有可选和可搜索文本的PDF。这反过来可以用PDF阅读库来提取。

另外，您可能想看看http://www.abbyy.com/，看看你是否得到更好的结果。

如果这些不是很好的选择，您可能需要以系统的方式分解您的问题：
1.扫描图像的图像质量是否是问题？如果是这样，那么这将不得不先固定。您的OCR解决方案可能会受到分辨率，对比度和颜色的影响。
2.它是OCR软件吗？请阅读高度清晰的文档，看看OCR软件是否犯了错误。如果是这样，那么你知道你必须找到更好的OCR软件。
3.如果您的文档质量很好，而且您的OCR软件在破译清晰的文档方面成功率很高，那么您可能需要查看不起作用的例外情况，并根据具体情况处理这些情况。

如果文档上的污迹和背景图像是造成问题的原因，您可能需要研究避免这种情况的方法，或者使用暴露API的图像处理软件来清除这些问题。

来源

2011-07-06 09:02:55 Jack

嗨，thx为您的答案。但购买其他扫描仪的选项不可用。我用abbyy进行了一些测试，质量可与atalasoft的OCR相媲美。其他建议吗？ –

Howto：使用C＃提高OCR之前的PDF质量

回答

相关问题