apache-tika

0热度

1回答

我尝试通过Hibernate Search @TikaBridge索引pdf文件。根据文档与TikaBridge注释字段应该是任何如下因素类型： String - where the string value is interpreted as a file path URI - where the URI is interpreted as a resource URI byte[] ja

0热度

1回答

使用Apache Tika解析大型PDF文件

我在使用Apache Tika解析大型PDF文件时遇到了一些问题。文件大小接近5 MB。这里是代码： package com.ibm.lnk.processor; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOExc

0热度

1回答

Solr tika删除换行

我正在使用Solika 5.3.1与tika来提取PDF索引。这个过程很有效，但它包含了很多换行符。无论如何使用分析器删除这些换行符？这里是我的分析代码： <analyzer type="query">

0热度

1回答

无法发布Excel或Word文件中的Solr 6.3.0，在更改配置

虽然试图张贴任何的Excel /字/ PDF文件，与Solr的 Unsupported ContentType: application/vnd.ms-excel Not in: [application/xml, application/csv, application/json, text/json, text/csv, text/xml, application/javabin] 什么需

0热度

1回答

对Apache Tika解析器的OneNote支持

我希望能够使用apache tika检测.one，.onetoc，.onetoc2文件的MIME类型。然而从他们的文档https://tika.apache.org/1.14/formats.html似乎并不支持它。使用Tika纯粹的文件解析技术，我总是得到application/octet-stream而不是application/onenote。他们支持基于扩展名和基于名称的内省来确定MIM

0热度

1回答

Httpclient asp.net核心卷曲等效

我有一个ASP.Net HttpClient POST请求的问题。事实上，我想使用SolrCell在Solr中索引文档。我用卷发这样的： curl 'http://localhost:8983/solr/my_collection/update/extract?literal.id=doc1&commit=true' -F "[email protected]/exampledocs/solr-

2热度

1回答

如何把.doc或.docx文件转换为.pdf文件？

如何转换.DOC或的.docx文件.PDF文件在Java中使用阿帕奇提卡？

0热度

1回答

Apache Tika无法从大型PDF中提取全文内容

我想从使用apache tika的大型pdf（不扫描/栅格化pdf）文件中提取文本。但是，当我比较原始（从pdf）和提取的文本中提取文本后，我发现很多文本内容都丢失了。我曾尝试使用setMaxStringLength(-1)和BodyContentHandler(-1)来最大化输出。但仍然无法从pdf文件中提取全文内容。下面是我试过的两个样本。样品：1 public class Extrac

0热度

2回答

使用Solr索引阿拉伯语PDF文件

我正在尝试使用Solr和Tika搜索文本文档。一切工作正常的.docx，.pptx，.csv，.xlsx，..但是当涉及到.pdf文件，它返回空的内容。我无法弄清楚问题所在！

0热度

1回答

如何使用Tikaparser解析Word文档，并保存在一个XML内容或JSON

我解析使用下面的代码Word文件中的Java ParseContext pcontext = new ParseContext(); AutoDetectParser parser = new AutoDetectParser(); Metadata metadata = new Metadata(); InputStream stream = TikaInputStream.get(new