2011-11-15 38 views
1

我们有以下的Solr(3.4)用于索引HTML /文本文档模式:索引办公格式的自定义字段类型架构

<fields> 

    <field name="text" type="text" indexed="true" 
      stored="true" required="false" multiValued="false" 
      omitNorms="false"/> 
    <field name="title" type="text" indexed="true" 
      stored="true" required="false" multiValued="false" 
      omitNorms="false"/> 
    <field name="created" type="date" indexed="true" 
      stored="true" required="true" multiValued="false" 
      omitNorms="false"/> 
    <field name="modified" type="date" indexed="true" 
      stored="true" required="false" multiValued="false" 
      omitNorms="false"/> 
    <field name="filesize" type="integer" indexed="true" 
      stored="true" required="false" multiValued="false" 
      omitNorms="false"/> 
    <field name="mimetype" type="string" indexed="true" 
      stored="true" required="false" multiValued="false" 
      omitNorms="false"/> 
    <field name="id" type="string" indexed="true" 
      stored="true" required="true" multiValued="false" 
      omitNorms="false"/> 
    <field name="tag" type="string" indexed="true" 
      stored="true" required="false" multiValued="false" 
      omitNorms="false"/> 
    <field name="relpath" type="string" indexed="true" 
      stored="true" required="false" multiValued="false" 
      omitNorms="false"/> 

    <dynamicField name="tika_*" type="ignored" /> 

</fields> 

的配置是自动生成从solrinstance配方ZC模板。扩建。

现在我们需要将PDF/Office文件等导入/索引到Solr进行全文索引。

用于萃取的产生requestHandler是:

<requestHandler name="/update/extract" 
        class="solr.extraction.ExtractingRequestHandler" > 
    <lst name="defaults"> 
     <str name="fmap.text">tika_content</str> 
     <str name="lowernames">false</str> 
     <str name="uprefix">tika_</str> 
    </lst> 
    </requestHandler> 

但通过卷曲上传PDF文件后,我找不到任何迹象表明它 一直指数(文档统计等完全没有变化)。

这里有什么窍门?

[更新]

我使用

卷曲的 “http://本地主机:8983/Solr的/更新/提取literal.id = 2 &提交=真正& fmap.content =文本” -F“[email protected]

上传PDF文件。添加fmap.content =文本似乎做了所需的映射(覆盖生成的配置)。

这似乎解决了这个问题。

回答

0

fmap基本上是由tika生成的内容的字段映射。

提卡处理程序提取上载文档的内容并将其分配到字段名称content<str name="fmap.content">text</str>将内容字段映射到模式中定义的文本字段。 正如架构中定义的text字段一样,这将起作用。

但是,对于<str name="fmap.text">tika_content</str>没有定义字段tika_content,我认为text生成,所以不会导致任何匹配。

相关问题