2014-03-25 42 views
0

有人可以建议如何获取图像文件(例如.jpg,.png,.gif等)的元数据并将这些数据索引到Apache Solr?使用TikaEntityProcessor获取图像文件元数据和索引到索引

目前,我正在使用Apache Solr 4.2。在DataImport配置文件中(对于我来说,我将它命名为“db-import-config.xml”),我尝试在ImageMetadataExtractor中使用TikaEntityProcessor。

<entity name="tika-test" 
     dataSource="binary"  // using BinURLDataSource 
     processor="TikaEntityProcessor" 
     onError="skip" 
     rootEntity="false" 
     url="${dbmw_image.url}" 
     format="none" 
     parser="org.apache.tika.parser.image.ImageMetadataExtractor"> 
     <field column="contributor" name="authors" meta="true"/> 
     <field column="creator" name="authors" meta="true"/> 
     <field column="data" name="creationDate" meta="true"/> 
     <field column="modified" name="lastModifiedDate" meta="true"/> 
</entity> 

字段“列”都来自都柏林核心元数据列表。当我尝试在Solr上进行数据导入时,没有一个字段被拾取。我需要下列问题的答案:

  1. 什么是可用的图像文件的元数据字段名称? (即我可以在上面的Tika实体的“字段”的“列”属性中加入的值)
  2. 如何索引并获取这些元数据值(通过Tika?)和索引到Solr? (例如,我需要哪个解析器?我应该如何设置tika实体属性等等)

任何建议都将被赞赏。

谢谢,

回答