2014-10-18 65 views
1

我需要使用同一个蜘蛛抓取两个URL:example.com/folder/和example.com/folder/fold2,并为每个url检索两个不同的东西。scrapy分别抓取两个不同的页面

start_urls = [ 'http://www.example.com/folder', 'http://www.example.com/folder/fold2']

1)检查东西/文件夹 2)检查东西/文件夹不同/ fold2

+1

什么是您确切的问题?你尝试过什么吗? – Sasa 2014-10-18 10:56:08

+0

爬虫在两个URL中检查相同的东西 – Pridge 2014-10-18 11:04:12

回答

2

看起来你想覆盖start_requests方法而不是使用start_urls:

from scrapy import Spider, Request 

class MySpider(Spider): 
    name = 'myspider' 

    def start_requests(self): 
     yield Request('http://www.example.com/folder', 
         callback=self.parse_folder) 
     yield Request('http://www.example.com/folder/fold2', 
         callback=self.parse_subfolder) 

    # ... define parse_folder and parse_subfolder here 
+0

我没有足够的声望来投票您的答案,我会尽快做!谢谢! – Pridge 2014-10-19 09:57:10