Q

使用Nutch的抓取特定HTML标签

2011-12-28 45 views 0 likes

0

我会有点冗长，明确规定的问题，所以请耐心等待:)使用Nutch的抓取特定HTML标签

假设我有以下基本网址：http://www.amazon.com/gp/goldbox/all-deals?ie=UTF8&type=bd
列出多项产品与简洁的描述。每个列出的产品都有一个指向详细产品信息页面的URL，例如：http://www.amazon.com/dp/B000WU7RGS/ref=xs_gb_all-deals_center_rw_uk_A34K0C99MV3O0U?pf_rd_p=1261804642&pf_rd_s=center-2&pf_rd_t=701&pf_rd_i=30&pf_rd_m=ATVPDKIKX0DER&pf_rd_r=1FE5R5X5XYMG6GDPHPK5

现在我的要求是（例如）获取每个产品的名称，价格和产品信息。我如何使用Nutch实现这一点？ Nutch是否需要/很好的选择，或者只是一个简单的wget +自己的HTML解析器是一个更好的方法去？

注：我不得不这样做了多个页面具有非常不同的布局，只有输入将是URL和内容的HTML标签来从URL

2011-12-28 Kartik Rustagi

A

回答

0

同样的问题工作取。然而，好像有一些累人步骤来实现这一目标：

1 - 2爬行索引3送由-readseg原始HTML 4解析为信息的文件你想

所以，Nutch似乎不是这样做的好方法。你有没有设法找出答案？

2012-04-13 14:17:36

相关问题