我已经在Alfresco 5.0.d中集成了Tesseract-ocr,我的要求是将PDF文件数据转换为文本格式。Tesseract-ocr在与户外集成后无法正常工作5.0.d
而且它适用于小型文件。
但是,如果我会上传更大尺寸的文件,说50多MB,
在这种情况下,它得到下述例外,和全pdf文件未获得在文本文件转换。 只有一些起始页面正在转换为文本格式。
请参考下面的日志
java.net.SocketTimeoutException: Read timed out
at java.net.SocketInputStream.socketRead0(Native Method)
at java.net.SocketInputStream.socketRead(SocketInputStream.java:116)
at java.net.SocketInputStream.read(SocketInputStream.java:170)
at java.net.SocketInputStream.read(SocketInputStream.java:141)
at sun.security.ssl.InputRecord.readFully(InputRecord.java:465)
at sun.security.ssl.InputRecord.read(InputRecord.java:503)
没有任何人有面临着同样的问题,请大家帮帮我。
在此先感谢。
任何人都可以请帮我解决这个问题,它是真正的高优先级 –