2014-01-29 39 views
0

我想为exampledocs目录中的某些XML文件添加标题。例如,manufacturers.xml文件包含<doc>标签中的11行数据,但几乎我看到的每个表都有一个标题,可能类似于“表1.为个人消费者购买提供免费回收的计算机制造商列表等等等等...... ”。将字幕添加到solr XML exampledocs

我是否需要添加一个新的字段名称=“caption”并重复11次(可能会非常长)还是有更好的方法在Solr中添加标题?

回答

0

如果你想在你的示例文档中有一个名为'caption'的字段,那么你需要在那里添加它们(还有其他方法可以添加这样的字段,但是工作量更大,我不认为你会希望追求)。

看一看在format

但是,只是为了确保,如果你有一个数据库,需要索引一些表格等,通常的方式去使用DIH,或者与SolrJ编程做API。你知道吗?

编辑:读您的评论后...那么你应该看看DIH and Tika

+0

没有数据库,只是科学与表中的字幕PDF,EXCEL,文字,文本,HTML等格式。我可以导入行,但不知道处理文件中始终存在的标题的最佳方式 –