如何在nutch中获取抓取的页面内容和相应的URL？

我想通过nutch在文本文件中获取抓取的内容。我使用了#readseg逗号，但输出效果不佳。如何在nutch中获取抓取的页面内容和相应的URL？

是否有一些插件可以让nutch抓取并存储文本文件中的网址和内容。

2013-07-23 Rahul

该插件应该在nutch的linux版本中工作。 – Rahul

也许[这]（http://stackoverflow.com/questions/5123757/how-to-get-the-html-content-from-nutch）问题可以帮助。 – Mike

使用Nutch 1，你可以做这样的事情：

./bin/nutch readseg -get out-crawl/segments/20160823085007/ "https://en.wikipedia.org/wiki/Canon" -nofetch -nogenerate -noparse -noparsedata -noparsetext > Canon.html

它仍然有几行在文件的开头摆脱。

来源

2016-09-01 13:41:24

您可以修改Nutch的Fetch Job以在抓取过程中获取URL和页面内容属于这些URL。在源代码文件（SRC/JAVA /组织/阿帕奇/ Nutch的/提取器/ FetcherReducer.java）：

 case ProtocolStatusCodes.SUCCESS:  // got a page 
      String URL= TableUtil.reverseUrl(fit.url); //URL 
      content = Bytes.toString(ByteBuffer.wrap((content.getContent()))));//URL belong the URL 
      output(fit, content, status, CrawlStatus.STATUS_FETCHED); 
      break;

希望这有助于

李全安待办事项

来源

2014-09-26 14:39:22

如何在nutch中获取抓取的页面内容和相应的URL？

回答

相关问题