验证这些文档的完整性的步骤是什么? doc,docx,docm,odt,rtf,pdf,odf,odp,xls,xlsx,xlsm,ppt,pptm
验证文档的完整性
或至少是其中的一些。通常在上传到内容存储库时。
我猜inputStream始终是99,99%从MultiPart http请求中正确读取,否则就会抛出异常并采取行动。但用户可以上传已损坏的文件 - 我是否使用第三方库来检查?我没有在odftoolkit,itextpdf,pdfbox,apache poi或tika中看到类似的东西
你在找什么样的腐败?商榷?偶然?单个字节损坏?文件被截断了吗?是否足以说“该文件看起来有点不安”,或者您是否只接受在Office 2003 build 12345或Office 2008 for Mac build 4321中声明未打开的文件? – Gagravarr
我只是想知道如何处理TikaException,因为解析是你可能会发现这个问题的地方,但是你会在解析过程中发生什么样的问题。在这种情况下应该做什么?我真的对文档的交付负责,这不像我将文件存储在内容存储库中。我之前没有处理文档的经验,您能给出一些数字吗?概率?统计数据? – lisak