2009-05-21 52 views
2

我们需要一个大容量的扫描和OCR解决方案高容量扫描和ocr自动解决方案?

我们在说什么数字化约4000记载了一天,并将其保存为带有OCR PDF文件(隐藏文本)...

的解决方案应该让运营商扫描文档并自动将文件保存到特定的网络资源,将要采取的,它上传到数据库的应用程序...

我们正在评估从的Kofax http://www.kofax.com/

的企业解决方案等什么你知道哪些产品?

有类似要求的任何经验吗?

任何开源(或至少可访问)的解决方案?

com,activex api支持?

回答

0

Kofax不是非常有用或用户友好(每个我的同事与县工作)。这是足够的,但不好。

我们使用全部Adobe解决方案。要遵循的细节(我不负责运行该区域,所以我必须为您收集一些信息)。

更新:我们使用

的Adobe Acrobat捕获3.0
两个RICOH彩色扫描仪IS760D与ADF
Acrobat标准版或专业版(取决于用户)

我们有丰富的图书馆(几乎6,000份文档),并提供成千上万的扫描页面。扫描的计算机上有一个我们购买的加密狗(25万次扫描,直到我们需要购买'更新');自从处理这件事的那位先生今天回家以来,我没有可用的成本,但我记得它在每页微钱。

我们经常扫描几百页需要完成的页面的文档,并且我们完成该任务没有问题。

如果您想了解我们所做的一些事情,可以通过http://acequia.ccrfcd.org/FileLibrary2/FileLibrary.aspx获取我们一些工作的链接(网络前端或我们的图书馆)。

至于把这些PDF文件放到数据库中,创建一个应用程序(可能是一个服务)来监控一个目录并获取在Capture运行之后弹出的每个PDF文件,将信息复制到数据库,然后删除它或将它移到它的新家。

+0

非常感谢您的信息,迈克尔,如果你能提供告诉我每PEGA的成本将是美好的... 顺便说一下,做的每提供商实现每页的政策? ??我认为kofax提供了一个类似的解决方案,一个加密狗,并为每个扫描页面付费...... – opensas 2009-05-23 14:01:07

4

有许多扫描产品供应商可以做你想做的事 - 扫描,索引,生成带有OCR覆盖的PDF(个人而言,我更喜欢PDF中的OCR底层)。对于专门从事扫描的供应商而言,这些要求相当微不足道。仅举几个其他供应商/产品除了到Kofax:

  • EMC公司/ captiva的InputAccel产品
  • Datacap
  • 的eCopy SHARESCAN
  • 的Verity /加的夫/自治

许多文件管理解决方案也具有内置的扫描前端,但它们通常不如专业捕获产品功能强大。几乎所有这些解决方案都具有COM/ActiveX API支持。我不知道任何扫描的开源解决方案,但我从来没有真的搜索任何。

大多数扫描软件供应商都使用“批量”或“容量”许可证。通常情况下,该卷在期限结束时更新(即每年1M页 - 每年自动更新,无需额外费用)。因此,如果您每年购买1M张图片的容量,并且您最终只扫描500K页,则您无法严格按“每页”付费。有可能,虽然很少有一次性卷没有自动更新,并且当它用完时,您将需要购买额外的卷。大多数供应商正在转移加密狗来控制量,并转向软件许可。

旁注有关Kofax:

的Kofax历来通过增值经销商的系统出售所以各种实施方式中的质量可以广泛变化。此外,它具有高度的可定制性,并带有许多附加模块,因此一个客户的Kofax系统可能与其他系统有很大不同。

Kofax用于企业级系统,每年扫描和自动捕获数百万和数百万份文档。它拥有大量的文档扫描市场份额。不,我不是Kofax的粉丝,如果我是我就不会提到有竞争力的产品;不过,我对此非常熟悉。像市场上的其他产品一样,它有优点和缺点。我意识到迈克尔只是在传达他所听到的内容,但我无法让这种笼统的概括通过没有评论。说一个占有很大比例市场份额的产品对于扫描来说“没有用处或者用户友好”就像是说“Windows不是有用的服务器操作系统”。这只是泛泛之谈。

干杯,

布赖恩

+0

在这个奇怪不受欢迎的主题(高容量图像捕获)上的良好答案。 – Lunatik 2011-03-29 08:30:00

0

如何以及你希望自己的OCR是?你需要所有的内容是人类可读的吗?或者你只需​​要一些内容就可以对文档进行分类(客户编号;文档类型;条形码...)。

http://www.irislink.com是一家开发扫描和分类文档解决方案的公司。
他们的软件包含在几种品牌的多功能和消费类扫描仪中。 该公司更倾向于提取信息并使用它(f.e.将发票自动输入到会计软件中)。
我的经验是,它更好地处理OCR的文本(纠正文字等)。)比Kofax(我们都使用);尽管Kofax可以扩展更多以达到更好的水平(这意味着更多的设置工作和更多的维护)。

这两种软件对于他们如何处理文档都非常有用。
如果您只希望扫描文档;转换为pdf并保存在网络共享;你可能有足够的购买一台好的扫描仪和使用附带的软件。
您也可以查看tesseract项目;它是一款开源的ocr引擎,效果不错。

0

你可以试试ChronoScan,它有免费的OCR通过​​tesseract,并有表格识别选项,它是免费的非商业用途。

该软件处于高级开发阶段,您可以通过论坛与开发人员直接交流。

http://www.chronoscan.org Short video reading forms