索引办公格式的自定义字段类型架构

我们有以下的Solr（3.4）用于索引HTML /文本文档模式：索引办公格式的自定义字段类型架构

<fields> 

    <field name="text" type="text" indexed="true" 
      stored="true" required="false" multiValued="false" 
      omitNorms="false"/> 
    <field name="title" type="text" indexed="true" 
      stored="true" required="false" multiValued="false" 
      omitNorms="false"/> 
    <field name="created" type="date" indexed="true" 
      stored="true" required="true" multiValued="false" 
      omitNorms="false"/> 
    <field name="modified" type="date" indexed="true" 
      stored="true" required="false" multiValued="false" 
      omitNorms="false"/> 
    <field name="filesize" type="integer" indexed="true" 
      stored="true" required="false" multiValued="false" 
      omitNorms="false"/> 
    <field name="mimetype" type="string" indexed="true" 
      stored="true" required="false" multiValued="false" 
      omitNorms="false"/> 
    <field name="id" type="string" indexed="true" 
      stored="true" required="true" multiValued="false" 
      omitNorms="false"/> 
    <field name="tag" type="string" indexed="true" 
      stored="true" required="false" multiValued="false" 
      omitNorms="false"/> 
    <field name="relpath" type="string" indexed="true" 
      stored="true" required="false" multiValued="false" 
      omitNorms="false"/> 

    <dynamicField name="tika_*" type="ignored" /> 

</fields>

的配置是自动生成从solrinstance配方ZC模板。扩建。

现在我们需要将PDF/Office文件等导入/索引到Solr进行全文索引。

用于萃取的产生requestHandler是：

<requestHandler name="/update/extract" 
        class="solr.extraction.ExtractingRequestHandler" > 
    <lst name="defaults"> 
     <str name="fmap.text">tika_content</str> 
     <str name="lowernames">false</str> 
     <str name="uprefix">tika_</str> 
    </lst> 
    </requestHandler>

但通过卷曲上传PDF文件后，我找不到任何迹象表明它一直指数（文档统计等完全没有变化）。

这里有什么窍门？

[更新]

我使用

卷曲的 “http：//本地主机：8983/Solr的/更新/提取literal.id = 2 &提交=真正& fmap.content =文本” -F“[email protected]”

上传PDF文件。添加fmap.content =文本似乎做了所需的映射（覆盖生成的配置）。

这似乎解决了这个问题。

来源

2011-11-15 Andreas Jung

fmap基本上是由tika生成的内容的字段映射。

提卡处理程序提取上载文档的内容并将其分配到字段名称content。 <str name="fmap.content">text</str>将内容字段映射到模式中定义的文本字段。正如架构中定义的text字段一样，这将起作用。

但是，对于<str name="fmap.text">tika_content</str>没有定义字段tika_content，我认为text生成，所以不会导致任何匹配。

来源

2011-11-15 09:16:43 Jayendra

索引办公格式的自定义字段类型架构

回答

相关问题