apache-tika

    0热度

    1回答

    我尝试通过Hibernate Search @TikaBridge索引pdf文件。根据文档与TikaBridge注释字段应该是任何如下因素类型: String - where the string value is interpreted as a file path URI - where the URI is interpreted as a resource URI byte[] ja

    0热度

    1回答

    我在使用Apache Tika解析大型PDF文件时遇到了一些问题。 文件大小接近5 MB。 这里是代码: package com.ibm.lnk.processor; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOExc

    0热度

    1回答

    我正在使用Solika 5.3.1与tika来提取PDF索引。这个过程很有效,但它包含了很多换行符。无论如何使用分析器删除这些换行符? 这里是我的分析代码: <analyzer type="query"> <!--<charFilter class="solr.MappingCharFilterFactory" mapping="mapping-FoldToASCII.txt"/>-->

    0热度

    1回答

    虽然试图张贴任何的Excel /字/ PDF文件,与Solr的 Unsupported ContentType: application/vnd.ms-excel Not in: [application/xml, application/csv, application/json, text/json, text/csv, text/xml, application/javabin] 什么需

    0热度

    1回答

    我希望能够使用apache tika检测.one,.onetoc,.onetoc2文件的MIME类型。然而从他们的文档https://tika.apache.org/1.14/formats.html似乎并不支持它。使用Tika纯粹的文件解析技术,我总是得到application/octet-stream而不是application/onenote。 他们支持基于扩展名和基于名称的内省来确定MIM

    0热度

    1回答

    我有一个ASP.Net HttpClient POST请求的问题。 事实上,我想使用SolrCell在Solr中索引文档。我用卷发这样的: curl 'http://localhost:8983/solr/my_collection/update/extract?literal.id=doc1&commit=true' -F "[email protected]/exampledocs/solr-

    2热度

    1回答

    如何转换.DOC或的.docx文件.PDF文件在Java中使用阿帕奇提卡?

    0热度

    1回答

    我想从使用apache tika的大型pdf(不扫描/栅格化pdf)文件中提取文本。 但是,当我比较原始(从pdf)和提取的文本中提取文本后,我发现很多文本内容都丢失了。我曾尝试使用setMaxStringLength(-1)和BodyContentHandler(-1)来最大化输出。但仍然无法从pdf文件中提取全文内容。 下面是我试过的两个样本。 样品:1 public class Extrac

    0热度

    2回答

    我正在尝试使用Solr和Tika搜索文本文档。一切工作正常的.docx,.pptx,.csv,.xlsx,..但是当涉及到.pdf文件,它返回空的内容。我无法弄清楚问题所在!

    0热度

    1回答

    我解析使用下面的代码Word文件中的Java ParseContext pcontext = new ParseContext(); AutoDetectParser parser = new AutoDetectParser(); Metadata metadata = new Metadata(); InputStream stream = TikaInputStream.get(new