我正在寻找将索引类型丰富的文档(Pdf,Doc,rtf,txt)编入Solr。我发现Tika是一种解决方案。我在网上做了一个咆哮,但没有找到任何Docs /链接来使它与ExtractingRequestHandler一起工作。使用Solr配置Tika
任何人都可以请提供一步一步的方式来配置Tika与ExtractingRequestHandler。
感谢提前:)
我正在寻找将索引类型丰富的文档(Pdf,Doc,rtf,txt)编入Solr。我发现Tika是一种解决方案。我在网上做了一个咆哮,但没有找到任何Docs /链接来使它与ExtractingRequestHandler一起工作。使用Solr配置Tika
任何人都可以请提供一步一步的方式来配置Tika与ExtractingRequestHandler。
感谢提前:)
检查ExtractingRequestHandler与提卡Solr的集成。
Solr提供了tika.config内置的,你不需要定义它,除非重写配置。
您可以用默认配置走在solrconfig.xml中
<!-- Solr Cell Update Request Handler
http://wiki.apache.org/solr/ExtractingRequestHandler
-->
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="lowernames">true</str>
<str name="uprefix">ignored_</str>
<!-- capture link hrefs but ignore div attributes -->
<str name="captureAttr">true</str>
<str name="fmap.a">links</str>
<str name="fmap.div">ignored_</str>
</lst>
</requestHandler>
可以使用命令来索引文件与其他元数据到Solr定义。
curl "http://localhost:8983/solr/update/extract?literal.id=2&literal.title=Test&commit=true&fmap.content=text" -F "[email protected]"
默认情况下,文件的内容被复制到内容字段并复制到文本中,您可以覆盖设置。
@jayedra一个问题!除了pdf类型以外的索引,它会引发Java.lang.noClassDefFoundError。任何线索? – user2475624
哪个班? – Jayendra
谢谢Jayendra这是一个URL问题,所以码头无论如何抛出异常解决。但现在我看不到我的文档与solr查询*。*什么可能错误的任何线索? – user2475624
在您的资源搜索中,您是否尝试过[ExtractingRequestHandler文档](http://wiki.apache.org/solr/ExtractingRequestHandler)? – femtoRgon
我目前使用Solr-Php-Client Library来索引内容。现在索引文件,我发现tika作为解决方案。但没有找到如何使用solr进行配置?请你简单解释一下。或任何有用的链接/文档? – user2475624
引用上面链接的文档:“Solr的ExtractingRequestHandler使用Tika来允许用户将二进制文件上传到Solr,并让Solr从中提取文本,然后对其进行索引。”这不是一个特例,它只是'ExtractingRequestHandler'的工作方式。该文档应该可以帮助您开始。如果您随时遇到麻烦,请随时提出一个新问题以帮助解决问题,但您应该先尝试一下。 – femtoRgon