2012-05-18 45 views
1

我对Map/Reduce世界非常陌生,试图评估如果能够利用索引在Solr中创建索引的最佳选项。目前,我正在使用常规爬网来获取数据并直接在Solr中对其进行索引。这没有任何问题。需要关于使用Map/Reduce创建索引索引的建议

但是,我们需要访问驻留在Amazon S3中的大量数据。目前S3中有大约500万个数据存储,需要对其进行索引。我正在考虑使用Amazon Elastic Map/Reduce(EMR)直接访问S3中的内容,然后在Solr中创建索引。数据结构很简单,url(它是唯一的)是S3键,值是一个XML文件。该URL将用作Solr中的doc id,而XML数据的相关部分将作为Solr索引中的字段存储。

我的问题是EMR是否是正确的方法?其任务是从S3访问数据,从XML中提取某些元素,进行一些处理,然后调用Solr API来生成索引。在对数据进行索引之前,处理部分需要很少的类,可能是一系列命令模式。这是可以实现的吗? Doo我需要还原剂还是可以使用映射器来完成这个过程?如果需要减速机,它的范围是什么?目前,我有一个存储数据的索引。

对此的任何指针将不胜感激。

谢谢

回答

0

您可以尝试使用MapReduceIndexer工具。 你可以从apache-sole下载它。 它是contrib模块的一部分。