在屏幕截图中检测文本的区域

我正在开发一个项目来增加Wine自动测试软件包的能力。我现在要做的是在当前窗口的屏幕截图中检测文本。然后我可以解析所有的文本，并使用autohotkey来点击我想要的文本的坐标。在屏幕截图中检测文本的区域

例如，在firefox中，我可能想测试不同的东西，首先打开正在打开的偏好设置。然后我需要解析firefox的截图，检测文本的所有单独位置。然后，我可以将这些单独的文本图像运行到tesseract-ocr中，并检测哪一个图像显示为“编辑”。然后我再次重做这个“偏好”。

我试图找到一个解决方案，但到目前为止找不到任何东西。我更喜欢使用python或python绑定的解决方案，因为我一直在编程。

2011-03-23 Shelnutt2

没有您需要某种沿途光学字符识别解决方案，以正确地解析文本？换句话说，你将如何从图像中获取文本？ – reckoner 2011-03-31 15:56:23

可能的起点是Project SIKULI。它是一种自动化GUI测试的工具。它是用Java编写的，但它包含一个基于Jython的脚本编写环境，因此修改它以支持python脚本可能不会太困难。

2011-03-23 13:38:05

2011-11-14 15:49:31 woto

回答