ocr

8热度

7回答

我想用MODI来OCR一个窗口的程序。它工作正常的我抢编程方式使用截图win32的互操作是这样的：该图像，然后保存到一个文件并运行通过MODI像这样： private string GetTextFromImage(string fileName) { MODI.Document doc = new MODI.DocumentClass(); doc.Crea

1热度

2回答

OCR - 大多数“不同”或“可识别的”ASCII字符？

我正在寻找一种方法来确定最“不同”或“可识别的”N个ASCII字符......例如，如果N = 10，从0x21到0x7E的ASCII集中最不同的N个字符是什么？显然，字符“X”与“O”（字母）非常不同，但“O”（字母）非常类似于“0”（零）。假设一个受限制的OCR字符子集，使得零和字母O只能被检测为一个或另一个，并且不必担心它是零还是字母O，那么最不同的N典型的OCR引擎（例如Tesseract

8热度

1回答

从Java中的图像文件中读取文本

什么是可用于从图像（JPEG，PNG）文件中提取文本的最佳开放源代码Java库？

5热度

2回答

用于从情节中提取文本的最佳OCR？

alt text http://goldprice.org/NewCharts/gold/images/gold_1d_o_GBP.png 有没有人知道一个好的ocr能够将此图像转换为文本？我试过tesseract，但它没有按照我的预期工作。

2热度

3回答

图像处理/超级光OCR

我有55000图像文件（在JPG和TIFF格式），这是图书从图书。每个页面的结构是这样的：一些文本 ---（水平线）--- 若干一些文本 ---（水平线）--- 另一个号码一些文本可以有从零到4的水平线任何给定网页上。我需要找到数字是什么，就在水平线的下方。但是，数字严格遵循对方，从第一页开始，所以为了找到数字，我不需要读它：我可以检测到水平线的存在，这应该是两个比尝试对页面进行OC

6热度

2回答

如何将外部OCR嵌入到现有PDF中？

我有一组在我运行OCR应用程序图像。这个过程产生一个包含字符偏移量的XML文件。然后，我使用Acrobat 9，现在的图像转换为PDF格式，我想对XML文件的信息为不可见的文本图层添加到PDF，以实现搜索的PDF。有一种简单而自由的方式吗？一些细节：我不想使用Acrobat的OCR功能; OCR处理结果，其中包含类似元件XML文件： <line baseline="1049" l="158"

19热度

7回答

如何知道PDF是仅包含图像还是已经通过OCR扫描进行搜索？

我有一大堆来自扫描文档的PDF文件。这些文件包含图像和文本的混合。有些被扫描为没有OCR的图像，因此每个PDF页面都是一个大图像，即使整个页面完全是文本。其他人使用OCR进行扫描，并在文本中包含图像和可搜索文本。在很多情况下，图片中的单词都可以搜索到。我想要使用OCR和Acrobat 8 Pro自动识别所有扫描文档中的文本，但我不想重新OCR已经通过OCR进程的文件过去。有没有人知道是否有办

3热度

1回答

在ARM/Gumstix上编译tesseract-ocr？

有没有可能在某些Gumstix板上找到Intel PXA270的tesseract-ocr？有没有人成功地做到了这一点，如果是的话，你是怎么做到的？

3热度

4回答

如何为OCR软件提供最佳成功机会？

我正在使用Tesseract OCR（通过pytesser）和PIL（Python图像库）来自动测试应用程序。我检查显示的文字是好的，通过制作截图并获取文本感谢tesseract。我在开始时遇到了一些问题，由于PIL的双三次插值，我增加了屏幕截图的大小，所以似乎效果更好。不幸的是，我仍然有一些错误，比如'0'和'O'之间的混淆。我可以想象，未来我会有其他类似的问题。我想知道是否有一些技术来

4热度

2回答

OCR不再是问题吗？

根据Wikipedia，“对拉丁文字的准确识别，打印文本现在被认为在很大程度上解决了应用程序在清晰成像可用的情况下的问题，如扫描打印文档。”但是，它没有引用。我的问题是：这是真的吗？目前的技术水平如此之好 - 对于英文文本的良好扫描 - 没有任何重大改进留下来了吗？或者，这个问题的一个较不主观的形式是：现代OCR系统在识别高质量扫描的英文文本时有多准确？