2011-12-28 45 views
0

我会有点冗长,明确规定的问题,所以请耐心等待:)使用Nutch的抓取特定HTML标签

假设我有以下基本网址:http://www.amazon.com/gp/goldbox/all-deals?ie=UTF8&type=bd
列出多项产品与简洁的描述。每个列出的产品都有一个指向详细产品信息页面的URL,例如:http://www.amazon.com/dp/B000WU7RGS/ref=xs_gb_all-deals_center_rw_uk_A34K0C99MV3O0U?pf_rd_p=1261804642&pf_rd_s=center-2&pf_rd_t=701&pf_rd_i=30&pf_rd_m=ATVPDKIKX0DER&pf_rd_r=1FE5R5X5XYMG6GDPHPK5

现在我的要求是(例如)获取每个产品的名称,价格和产品信息。我如何使用Nutch实现这一点? Nutch是否需要/很好的选择,或者只是一个简单的wget +自己的HTML解析器是一个更好的方法去?

注:我不得不这样做了多个页面具有非常不同的布局,只有输入将是URL和内容的HTML标签来从URL

回答

0

同样的问题工作取。然而,好像有一些累人步骤来实现这一目标:

1 - 2爬行索引3送由-readseg原始HTML 4解析为信息的文件你想

所以,Nutch似乎不是这样做的好方法。你有没有设法找出答案?