2014-01-16 189 views
1

我使用Tess4J以编程方式使用Tesseract,这对识别任务非常有用。使用Tess4J生成训练数据

现在我想添加一些功能来帮助从this wiki article中描述的文本生成受过训练的数据文件,但是从Java/Tess4J中描述。如果必须使用“新自动方法”或“旧手动方法”,则无关紧要。两者都会好的。

Tess4J是否支持此功能,或者是否存在另一种能够训练Tesseract的Java绑定?

+0

你提到的文章谈到了使用额外的库,“培训”库。 Tess4J实际上只是JNA 4.0(Java Native Access代码)的一个包装。所以,在我看来,如果你想使用额外的库,你将不得不为这些库编写JNA代码。如果你这样做,它会成为一个伟大的开源项目。你可能会发现一些开源项目已经完成了这个,但我没看过。 – NicholasKarl

+0

我不确定这些其他可执行文件是否是libtesseract302。(dll | so)的一部分。 – pvorb

回答

2

培训由除Tesseract之外的其他可执行文件提供,它们不作为API或库公开。对于基于Java的Tesseract培训,您可能想要查看jTessBoxEditor项目。

+0

感谢您的信息。我想我必须研究如何为训练工具编写JNA包装。可能我可以建立一个揭示该功能的库。 – pvorb

+0

我会接受这个解决方案,直到有更好的解决方案。 – pvorb

+0

@nguyenq,aboe项目不支持阿拉伯语,有没有支持阿拉伯语的项目? –