2014-05-09 35 views
1

我已经使用'nutch'将HBase作为存储后端抓取网站。我已经参考了本教程link- http://wiki.apache.org/nutch/Nutch2Tutorial无法验证存储在hbase中的已抓取数据

Nutch的版本是2.2.1,HBase的版本0.90.4和Solr版本4.7.1

这里的步骤我used-

./runtime/local/bin/nutch注入的网址

./runtime/local/bin/nutch生成-topN 100 -adddays 30

./runtime/local/bin/nutch取-all

./runtime/local/bin/nutch取-all

./runtime/local/bin/nutch updatedb的

./runtime/local/bin/nutch solrindex http://localhost:8983/solr/ -all 

我的网址/ seed.txt文件载有以下 http://www.xyzshoppingsite.com/mobiles/

我只保留了下面“正则表达式,urlfilter.txt线'文件(所有其他正则表达式被评论)。

+^http://([a-z0-9]*\.)*xyzshoppingsite.com/mobile/*

在爬行的最后,我可以看到一表“网页”在HBase的创建,但我无法核实是否所有的和完整的数据已经被抓取或没有。 在Solr搜索时,它什么都不显示,结果为0。

我的最终目的是在上面的URL中获取所有移动网页中的完整数据。

可否请你让我知道,

  • 如何验证抓取的数据出现在HBase的?

  • Solr日志目录包含0个文件,所以我无法获得突破。如何解决这个问题? HBase的命令scan "webpage"

  • 输出只显示时间戳数据和其它数据

    value=\x0A\x0APlease Wait ... Redirecting to <a href="/mobiles"><b>http://www.xyzshoppingsite.com/mobiles</b></a>Please Wait ... Redirecting to <a href="/mobiles"><b>http://www.xyzshoppingsite.com/mobiles</b></a>

这里,为什么是数据抓取像这样和重定向后,页面没有实际内容?

请帮忙。提前致谢。

感谢和问候!

回答

0

代替执行所有这些步骤,您可以使用下面的命令

./bin/crawl url/seed.txt shoppingcrawl http://localhost:8080/solr 2 

如果能够成功地执行,一个表将在HBase的创建,以及名称,shoppingcrawl _webpage。

我们可以通过在HBase的壳

hbase> list 

以下命令执行然后,我们可以扫描特定表检查。在这种情况下,

hbase> scan 'shoppingcrawl_webpage' 
相关问题