我的目的是使用刮蜘蛛的几个网址,如如下:制作蜘蛛restarable
import scrapy
from ..items import ContentsPageSFBItem
class BasicSpider(scrapy.Spider):
name = "contentspage_sfb"
#allowed_domains = ["web"]
start_urls = [
'https://www.safaribooksonline.com/library/view/shell-programming-in/9780134496696/',
'https://www.safaribooksonline.com/library/view/cisa-certified-information/9780134677453/'
]
def parse(self, response):
item = ContentsPageSFBItem()
#from scrapy.shell import inspect_response
#inspect_response(response, self)
content_items = response.xpath('//ol[@class="detail-toc"]//a/text()').extract()
for content_item in content_items:
item['content_item'] = content_item
item["full_url"] = response.url
item['title'] = response.xpath('//title[1]/text()').extract()
yield item
我打算用更多的URL。我的意图是创建一个可重新启动的蜘蛛防止出现问题。我的计划是添加例外,并创建一个csv与剩余网址的列表。我在哪里可以添加此功能?
我想知道如何为每个url创建一个单独的csv。另外我想跳过任何异常的迭代。但是我应该修改哪个文件? –
我试图重现你试图达到的目标,是这样的吗? –
你的意思是'start_urls'吗? –