2013-02-06 39 views
2

我打算做一个利基搜索引擎。我使用apache-nutch-1.6作为搜索器,使用apache-solr-3.6.2作为搜索器。我必须说,网上关于这些技术的信息非常少。如何修改Solr提供的搜索结果页面?

我按照这个教程http://wiki.apache.org/nutch/NutchTutorial已成功安装Apache和solr在我的Ubuntu系统上。我也成功地将种子URL注入到webdb并执行爬网。

使用solr界面http://localhost:8983/solr/admin,我也可以查询抓取的结果。但这是我收到的结果。 enter image description here

我错过了这里的东西,早期的apache-nutch-0.7有一场战争,它产生了一个清晰的html输出。 enter image description here。我如何达到这个目标......或者如果有人能指点我最新的教程或指南,非常感谢。

+0

你到现在为止尝试过什么?你有没有做谷歌(如果不是)搜索?这里有一个非常类似的问题:http://stackoverflow.com/questions/2411330/how-to-format-solr-result-documents – Oerd

+0

@Oerd:我确实看到了这个问题,我发布了我的查询后,一大堆学习和研究。这篇文章[链接](http://stackoverflow.com/questions/2411330/how-to-format-solr-result-documents)绝对建议使用xslt,但我想知道如果这是首选的方式。 –

+0

xslt *是*转换/样式xml文档的标准方式 – Oerd

回答

0

我发现下面的链接 http://cmusphinx.sourceforge.net/2012/06/building-a-java-application-with-apache-nutch-and-solr/ 这回答我的查询。

我同意在阅读上面链接中提供的内容后,对我感到很生气。 Solr包提供了查询solr所需的所有对象。实际上,必不可少的瓶子只是solr-solrj-3.4.0.jar,commons-httpclient-3.1.jar和slf4j-api-1.6.4.jar。

任何人都可以使用这些对象来构建一个Java搜索引擎来查询数据库并拥有一个奇特的UI。

再次感谢。

2

几件事情:

  • 如果你是刚刚开始,不使用的Solr 3.6,直行到最新的4.1或更高版本。一大堆事情已经发生了变化,添加了许多新功能。
  • 你似乎在说你会将Solr + UI直接暴露给普通网络 - 这是一个非常糟糕的主意,因为Solr完全不安全并且允许基于Web的删除查询。你真的想要一个中间的业务层。
  • 使用Solr 4.1,有一个漂亮的Admin UI,并且还有一个/ browse页面,显示如何使用Velocity执行Solr支持的页面。或者看一下如何通过Project Blacklight获取如何通过Solr获取UI的示例。
+0

感谢您的回复,我应该使用apache-nutch-1.6还是应该从apache-nutch-2.1开始。你也可以建议相关的阅读材料。等待你的回复。 –

+0

我对nutch不太了解。我知道第2版是完全重新设计的,与1.6相比仍然缺少一些功能。另一方面,如果你刚刚开始,那么使用最新版本是很有意义的。祝你好运。 –

+0

你可以为JAVA建议一样吗? 我的意思是基于Java的WEb应用程序 –