Tesseract-ocr在与户外集成后无法正常工作5.0.d

我已经在Alfresco 5.0.d中集成了Tesseract-ocr，我的要求是将PDF文件数据转换为文本格式。Tesseract-ocr在与户外集成后无法正常工作5.0.d

而且它适用于小型文件。

但是，如果我会上传更大尺寸的文件，说50多MB，

在这种情况下，它得到下述例外，和全pdf文件未获得在文本文件转换。只有一些起始页面正在转换为文本格式。

请参考下面的日志

java.net.SocketTimeoutException: Read timed out 
    at java.net.SocketInputStream.socketRead0(Native Method) 
    at java.net.SocketInputStream.socketRead(SocketInputStream.java:116) 
    at java.net.SocketInputStream.read(SocketInputStream.java:170) 
    at java.net.SocketInputStream.read(SocketInputStream.java:141) 
    at sun.security.ssl.InputRecord.readFully(InputRecord.java:465) 
    at sun.security.ssl.InputRecord.read(InputRecord.java:503)

没有任何人有面临着同样的问题，请大家帮帮我。

在此先感谢。

来源

2017-02-20 Deepak Talape

任何人都可以请帮我解决这个问题，它是真正的高优先级 –

您可能需要增加PDF的内容转换大小alfresco-global.properties文件为文本

，你可以，如果你使用的是OOoDirect

使用这些属性

给出变换尺寸

content.transformer.complex.OpenOffice.Pdf2swf.extensions.doc.swf.maxSourceSizeKBytes=5120 content.transformer.complex.OpenOffice.Pdf2swf.extensions.docx.swf.maxSourceSizeKBytes=5120

如果您正在使用OOoJodConverter

content.transformer.complex.JodConverter.Pdf2swf.extensions.doc.swf.maxSourceSizeKBytes=5120 
content.transformer.complex.OpenOffice.Pdf2swf.extensions.docx.swf.maxSourceSizeKBytes=5120

是指这个社会问题 https://community.alfresco.com/thread/211670-changing-transformation-limits-version-5b

https://community.alfresco.com/thread/203406-how-to-config-alfresco-documents-preview-size-limit-on-42d

https://injustfiveminutes.wordpress.com/2012/11/28/docx-pptx-document-preview-fails-on-alfresco-4-2-c/

来源

2017-02-24 11:59:24 vikash

您可以更改maxSourceSizeKBytes值。 – vikash

我有点惊讶。 Alfresco已经包含负责做PDF - > TXT转换的PDFBox。所以你不需要使用Tesseract。即使你的踪迹看起来有点奇怪。要查看变压器发生了什么，请设置log4j.logger.org.alfresco.repo.content.transform.TransformerDebug和log4j.logger.org.alfresco.repo.content.transform等于至DEBUG。

来源

2017-02-20 14:05:40

其实PDF包含扫描的图像和我必须使用Tesseract ...但我不明白为什么它给予阅读超时错误。你能帮我解决这个错误，或者它有可能增加超时时间 –

嗨，你使用这个模块（https://github.com/bchevallereau/alfresco-tesseract）。这是我发展自己的一个。 –

我已经从下面的链接下载它，https://github.com/UB-Mannheim/tesseract/wiki并使用相同的 –

Tesseract-ocr在与户外集成后无法正常工作5.0.d

回答

相关问题