2014-04-04 40 views
-1

我已经通过curl命令安装了solr和i​​ndexd并执行了搜索活动。现在我想在hadoop上部署它,并在文件被推送到存储目录时自动建立索引。我对Hadoop完全陌生,不知道。那么任何人都可以向我介绍这一点?非常感谢。solr on hadoop的集成

回答

0

如果您不太了解底层技术,最好查看专门将多个软件包放在一起的供应商产品,并提供围绕其特定组合的培训材料。

具体来说,我会建议看看像CDH from Cloudera。它包括Hadoop,Solr和许多其他的东西,比如Hue。

0

有些方法可以让文件在目录中登录时自动进行索引。

  1. 使用curl - 编写shell脚本并将其作为cron运行。

  2. 使用Oozie - 创建shell操作并计划它。

  3. 我希望morpline /水槽solr水槽可能工作。

注意:如果您发现有关3的解决方案,请分享。

干杯, 卡纳安

-1

你可以看到的Solr参考指南(HDFS上运行SOLR)是 https://cwiki.apache.org/confluence/display/solr/Running+Solr+on+HDFS

Solr的有写作的支持和阅读它的索引和事务日志文件到HDFS分布式文件系统

要使用HDFS,而不是一个本地文件系统,你必须使用Hadoop 2.x的

你需要指示Solr使用HdfsDirectoryFactory。还有几个额外的参数需要定义。这些可以通过三种方式设置:

1.通过bin/solr脚本的通过JVM参数。每次你用bin/solr启动Solr时都需要传递这些信息。

2.修改solr.in.sh(或Windows上的solr.in.cmd)以在使用bin/solr时自动传递JVM参数,而无需手动设置它们。

3.定义solrconfig.xml中的属性。这些配置更改需要为每个集合重复,因此,如果您只希望将某些集合存储在HDFS中,那么这是一个不错的选择。