2012-01-21 30 views
2

我正在配置Jackrabbit 2.3.6,我需要索引二进制文件(PDF, ODT)。所以我根据 http://wiki.apache.org/jackrabbit/Searchrepository.xml中配置了SearchIndex。但是,当我将文件插入存储库并尝试搜索全文 时,不会返回任何结果。Jackrabbit已弃用SearchIndex textFilterClasses属性

然后我注意到在警告日志:

SearchIndex.java:2087 The textFilterClasses configuration parameter has been deprecated, and the configured value will be ignored: org.apache.jackrabbit.extractor.PlainTextExtractor,org.apache.jackrabbit.extractor.PdfTextExtractor,org.apache.jackrabbit.extractor.OpenOfficeTextExtractor

如何做我必须配置SearchIndex索引二进制数据?现在我 做这样的,它被废弃,并根据上述警告没有奏效:

<SearchIndex class="org.apache.jackrabbit.core.query.lucene.SearchIndex"> 
    <param name="path" value="${rep.home}/repository/index"/> 
    <param name="textFilterClasses"value="org.apache.jackrabbit.extractor.PdfTextExtractor,org.apache.jackrabbit.extractor.OpenOfficeTextExtractor"/> 
    <param name="supportHighlighting" value="true"/> 
</SearchIndex> 

感谢的答复。

回答

1

这是马克·赫尔曼从兔崽子用户回答类似的问题,邮件列表:

我不是专家,但我知道,JR使用提卡提取文本, 它决定如何根据在jcr:mimeType属性上。如果你不提供 mimetype,那么它将不知道如何提取它(虽然我不会 建议作为一种做法)。我相信有一种方法可以为JR提供一个 Tika配置,可能会给你你想要的。编辑:没有。它是硬编码的。

此外什么得到通过 的Lucene索引以及如何可以指定在您可以设置一些规则库/工作区 XML文件的索引配置。

0

你不需要做任何事情来打开Tika解析。只要添加了mimetype属性,它就会自动解析和索引文档的内容(只要格式是由特定版本的Tika支持的)。

希望这可以帮助别人。 Jackrabbit文档非常稀少。事实上,Apache橡木似乎设置取代它也没有帮助。

相关问题