apache-tika

0热度

2回答

我正在一个项目中，我需要从gz文件中使用apache tika [AM NEW TO TIKA]提取xml（站点地图）数据。 fie的名字是类似sitemap01.xml.gz 我可以从正常的文本文件或html中提取数据，但我不知道如何从gz中提取xml并从xml中提取meta和数据... 我搜索过谷歌过去两天。我需要使用tika中的delegateParser从xml中提取数据吗？请指引我一

6热度

3回答

如何索引SOLR中的文档？

我在Ubuntu 10.04上运行Solr 1.4（通过apt-get solr-tomcat安装），它似乎工作正常。我有一些困难找到任何连贯的信息，但如何索引文件。 Im新的SOLR让我忍受！我有一个文件夹（/ mnt /文件夹），这是一个装载的Windows共享，其中包含Word和PDF文件，我想索引，最简单的方法来索取SOLR索引整个文件夹？ SOLR的文档非常差，它不可能找到任何正确的教

3热度

1回答

Solr ExtractingRequestHandler为pdf文档提供空白内容

我在Solr中使用ExtractingRequestHandler来获取文档内容并对其进行索引。它适用于所有Microsoft文档，但对于PDF，正在提取的内容为空。我也尝试了curl的extractOnly = true，并且它也返回空单元。我已经在相同的文件上独立使用了TIKA，并且提取内容非常好。不同之处在于独立执行操作时，我使用的是Tika附带的BodyContentHander，而不是

5热度

2回答

使用Lucene为Symfony索引PDF文件

我是Symfony开发人员，我的Web服务器是Linux。我已经使用sfLucene插件。索引PDF文件在Linux PHP服务器上搜索的最简单方法是什么？ XPDF，通过SOLR sfLucene plugin branch 第3选项安装like this Apache Tika？谢谢！

3热度

1回答

Solr的TikaEntityProcessor不能正常工作

我想让Solr索引一个数据库，其中一列是我希望建立索引的PDF文档的文件名。我的配置如下所示： <dataConfig> <dataSource name="ds-db" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/document_db" user="user" password="password" readOnly=

1热度

1回答

SOLR Tika：将文件添加到现有记录（ExtractingRequestHandler）

我使用“名称”，“标题”和“描述”字段索引SOLR中的帖子。我希望以后能够使用Tika/ExtractingRequestHandler添加文件（如Word文档或PDF）。我知道我可以添加文件，像这样：（或通过其他接口）卷曲 'http://localhost:8983/solr/update/extract?literal.id=POST1 &提交=真正的' -F “[email prote

2热度

1回答

索引pdf文档

索引pdf文档的最佳方式是什么？我应该通过将pdf文档转换为txt来索引它们还是有更好的方式来索引pdf文件？