Jackrabbit已弃用SearchIndex textFilterClasses属性

我正在配置Jackrabbit 2.3.6，我需要索引二进制文件（PDF， ODT）。所以我根据 http://wiki.apache.org/jackrabbit/Search在repository.xml中配置了SearchIndex。但是，当我将文件插入存储库并尝试搜索全文时，不会返回任何结果。Jackrabbit已弃用SearchIndex textFilterClasses属性

然后我注意到在警告日志：

SearchIndex.java:2087 The textFilterClasses configuration parameter has been deprecated, and the configured value will be ignored: org.apache.jackrabbit.extractor.PlainTextExtractor,org.apache.jackrabbit.extractor.PdfTextExtractor,org.apache.jackrabbit.extractor.OpenOfficeTextExtractor

如何做我必须配置SearchIndex索引二进制数据？现在我做这样的，它被废弃，并根据上述警告没有奏效：

<SearchIndex class="org.apache.jackrabbit.core.query.lucene.SearchIndex"> 
    <param name="path" value="${rep.home}/repository/index"/> 
    <param name="textFilterClasses"value="org.apache.jackrabbit.extractor.PdfTextExtractor,org.apache.jackrabbit.extractor.OpenOfficeTextExtractor"/> 
    <param name="supportHighlighting" value="true"/> 
</SearchIndex>

感谢的答复。

来源

2012-01-21 kurochenko

这是马克·赫尔曼从兔崽子用户回答类似的问题，邮件列表：

我不是专家，但我知道，JR使用提卡提取文本，它决定如何根据在jcr：mimeType属性上。如果你不提供 mimetype，那么它将不知道如何提取它（虽然我不会建议作为一种做法）。我相信有一种方法可以为JR提供一个 Tika配置，可能会给你你想要的。编辑：没有。它是硬编码的。

此外什么得到通过的Lucene索引以及如何可以指定在您可以设置一些规则库/工作区 XML文件的索引配置。

来源

2012-04-12 06:29:01 RobSis

你不需要做任何事情来打开Tika解析。只要添加了mimetype属性，它就会自动解析和索引文档的内容（只要格式是由特定版本的Tika支持的）。

希望这可以帮助别人。 Jackrabbit文档非常稀少。事实上，Apache橡木似乎设置取代它也没有帮助。

来源

2015-06-26 13:20:39

Jackrabbit已弃用SearchIndex textFilterClasses属性

回答

相关问题