2011-10-29 248 views
2

使用Nutch,我想抓取所有http://www.amazon.com/网页,其ipod在他们的网址。nutch:用关键词搜索

对于e.g如果我在他们的搜索框进行搜索的ipod,我得到

http://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=ipod&x=0&y=0

本网页显示一堆的iPod链接。我想抓取每个与ipod相关的链接并获取它。

下的搜索结果中显示的第一个环节是

http://www.amazon.com/Apple-iPod-touch-8GB-Generation/dp/B001FA1O0O/ref=sr_1_1?ie=UTF8&qid=1319863311&sr=8-

我应该低于使用?

+^http://([a-z0-9\-A-Z]*\.)*www.amazon.com/*ipod* 

回答

0

如果你想抓取这个特定的网址,你应该包括以下行爬行,urlfilter.txt

-.* 

此命令将排除所有其他网址了!

+0

您可以添加一些链接,在这里给出更多的信息。 – Narendra