apache-tika

    0热度

    2回答

    我正在一个项目中,我需要从gz文件中使用apache tika [AM NEW TO TIKA]提取xml(站点地图)数据。 fie的名字是类似sitemap01.xml.gz 我可以从正常的文本文件或html中提取数据,但我不知道如何从gz中提取xml并从xml中提取meta和数据... 我搜索过谷歌过去两天。 我需要使用tika中的delegateParser从xml中提取数据吗? 请指引我一

    6热度

    3回答

    我在Ubuntu 10.04上运行Solr 1.4(通过apt-get solr-tomcat安装),它似乎工作正常。我有一些困难找到任何连贯的信息,但如何索引文件。 Im新的SOLR让我忍受! 我有一个文件夹(/ mnt /文件夹),这是一个装载的Windows共享,其中包含Word和PDF文件,我想索引,最简单的方法来索取SOLR索引整个文件夹? SOLR的文档非常差,它不可能找到任何正确的教

    3热度

    1回答

    我在Solr中使用ExtractingRequestHandler来获取文档内容并对其进行索引。它适用于所有Microsoft文档,但对于PDF,正在提取的内容为空。我也尝试了curl的extractOnly = true,并且它也返回空单元。 我已经在相同的文件上独立使用了TIKA,并且提取内容非常好。不同之处在于独立执行操作时,我使用的是Tika附带的BodyContentHander,而不是

    5热度

    2回答

    我是Symfony开发人员,我的Web服务器是Linux。我已经使用sfLucene插件。 索引PDF文件在Linux PHP服务器上搜索的最简单方法是什么? XPDF,通过SOLR sfLucene plugin branch 第3选项安装like this Apache Tika? 谢谢!

    3热度

    1回答

    我想让Solr索引一个数据库,其中一列是我希望建立索引的PDF文档的文件名。我的配置如下所示: <dataConfig> <dataSource name="ds-db" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/document_db" user="user" password="password" readOnly=

    1热度

    1回答

    我使用“名称”,“标题”和“描述”字段索引SOLR中的帖子。我希望以后能够使用Tika/ExtractingRequestHandler添加文件(如Word文档或PDF)。 我知道我可以添加文件,像这样:(或通过其他接口) 卷曲 'http://localhost:8983/solr/update/extract?literal.id=POST1 &提交=真正的' -F “[email prote

    2热度

    1回答

    索引pdf文档的最佳方式是什么?我应该通过将pdf文档转换为txt来索引它们还是有更好的方式来索引pdf文件?