scrapy分别抓取两个不同的页面

我需要使用同一个蜘蛛抓取两个URL：example.com/folder/和example.com/folder/fold2，并为每个url检索两个不同的东西。scrapy分别抓取两个不同的页面

start_urls = [ 'http://www.example.com/folder'， 'http://www.example.com/folder/fold2']

1）检查东西/文件夹 2）检查东西/文件夹不同/ fold2

2014-10-18 Pridge

什么是您确切的问题？你尝试过什么吗？ – Sasa 2014-10-18 10:56:08

爬虫在两个URL中检查相同的东西 – Pridge 2014-10-18 11:04:12

看起来你想覆盖start_requests方法而不是使用start_urls：

from scrapy import Spider, Request 

class MySpider(Spider): 
    name = 'myspider' 

    def start_requests(self): 
     yield Request('http://www.example.com/folder', 
         callback=self.parse_folder) 
     yield Request('http://www.example.com/folder/fold2', 
         callback=self.parse_subfolder) 

    # ... define parse_folder and parse_subfolder here

来源

2014-10-18 17:25:17 elias

我没有足够的声望来投票您的答案，我会尽快做！谢谢！ – Pridge 2014-10-19 09:57:10

scrapy分别抓取两个不同的页面

回答

相关问题