我们有以下的Solr(3.4)用于索引HTML /文本文档模式:索引办公格式的自定义字段类型架构
<fields>
<field name="text" type="text" indexed="true"
stored="true" required="false" multiValued="false"
omitNorms="false"/>
<field name="title" type="text" indexed="true"
stored="true" required="false" multiValued="false"
omitNorms="false"/>
<field name="created" type="date" indexed="true"
stored="true" required="true" multiValued="false"
omitNorms="false"/>
<field name="modified" type="date" indexed="true"
stored="true" required="false" multiValued="false"
omitNorms="false"/>
<field name="filesize" type="integer" indexed="true"
stored="true" required="false" multiValued="false"
omitNorms="false"/>
<field name="mimetype" type="string" indexed="true"
stored="true" required="false" multiValued="false"
omitNorms="false"/>
<field name="id" type="string" indexed="true"
stored="true" required="true" multiValued="false"
omitNorms="false"/>
<field name="tag" type="string" indexed="true"
stored="true" required="false" multiValued="false"
omitNorms="false"/>
<field name="relpath" type="string" indexed="true"
stored="true" required="false" multiValued="false"
omitNorms="false"/>
<dynamicField name="tika_*" type="ignored" />
</fields>
的配置是自动生成从solrinstance配方ZC模板。扩建。
现在我们需要将PDF/Office文件等导入/索引到Solr进行全文索引。
用于萃取的产生requestHandler是:
<requestHandler name="/update/extract"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="fmap.text">tika_content</str>
<str name="lowernames">false</str>
<str name="uprefix">tika_</str>
</lst>
</requestHandler>
但通过卷曲上传PDF文件后,我找不到任何迹象表明它 一直指数(文档统计等完全没有变化)。
这里有什么窍门?
[更新]
我使用
卷曲的 “http://本地主机:8983/Solr的/更新/提取literal.id = 2 &提交=真正& fmap.content =文本” -F“[email protected]”
上传PDF文件。添加fmap.content =文本似乎做了所需的映射(覆盖生成的配置)。
这似乎解决了这个问题。