2017-02-20 25 views
1

我已经在Alfresco 5.0.d中集成了Tesseract-ocr,我的要求是将PDF文件数据转换为文本格式。Tesseract-ocr在与户外集成后无法正常工作5.0.d

而且它适用于小型文件。

但是,如果我会上传更大尺寸的文件,说50多MB,

在这种情况下,它得到下述例外,和全pdf文件未获得在文本文件转换。 只有一些起始页面正在转换为文本格式。

请参考下面的日志

java.net.SocketTimeoutException: Read timed out 
    at java.net.SocketInputStream.socketRead0(Native Method) 
    at java.net.SocketInputStream.socketRead(SocketInputStream.java:116) 
    at java.net.SocketInputStream.read(SocketInputStream.java:170) 
    at java.net.SocketInputStream.read(SocketInputStream.java:141) 
    at sun.security.ssl.InputRecord.readFully(InputRecord.java:465) 
    at sun.security.ssl.InputRecord.read(InputRecord.java:503) 

没有任何人有面临着同样的问题,请大家帮帮我。

在此先感谢。

+0

任何人都可以请帮我解决这个问题,它是真正的高优先级 –

回答

2

您可能需要增加PDF的内容转换大小alfresco-global.properties文件为文本

,你可以,如果你使用的是OOoDirect

使用这些属性

给出变换尺寸

content.transformer.complex.OpenOffice.Pdf2swf.extensions.doc.swf.maxSourceSizeKBytes=5120 content.transformer.complex.OpenOffice.Pdf2swf.extensions.docx.swf.maxSourceSizeKBytes=5120

如果您正在使用OOoJodConverter

content.transformer.complex.JodConverter.Pdf2swf.extensions.doc.swf.maxSourceSizeKBytes=5120 
content.transformer.complex.OpenOffice.Pdf2swf.extensions.docx.swf.maxSourceSizeKBytes=5120 

是指这个社会问题 https://community.alfresco.com/thread/211670-changing-transformation-limits-version-5b

https://community.alfresco.com/thread/203406-how-to-config-alfresco-documents-preview-size-limit-on-42d

https://injustfiveminutes.wordpress.com/2012/11/28/docx-pptx-document-preview-fails-on-alfresco-4-2-c/

+0

您可以更改maxSourceSizeKBytes值。 – vikash

2

我有点惊讶。 Alfresco已经包含负责做PDF - > TXT转换的PDFBox。所以你不需要使用Tesseract。 即使你的踪迹看起来有点奇怪。要查看变压器发生了什么,请设置log4j.logger.org.alfresco.repo.content.transform.TransformerDebuglog4j.logger.org.alfresco.repo.content.transform等于 至DEBUG

+0

其实PDF包含扫描的图像和我必须使用Tesseract ...但我不明白为什么它给予阅读超时错误。你能帮我解决这个错误,或者它有可能增加超时时间 –

+0

嗨,你使用这个模块(https://github.com/bchevallereau/alfresco-tesseract)。这是我发展自己的一个。 –

+0

我已经从下面的链接下载它,https://github.com/UB-Mannheim/tesseract/wiki并使用相同的 –

相关问题