我刚刚安装了scrapy,并遵循其工作原理简单的dmoz tutorial。我只是查找了python的基本文件处理,并试图让抓取工具从文件中读取URL的列表,但出现了一些错误。这可能是错误的,但我给了它一个镜头。请有人向我展示一个阅读URL列表到scrapy的例子吗?提前致谢。Scrapy从文件中读取网址列表以进行刮取?
from scrapy.spider import BaseSpider
class DmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
f = open("urls.txt")
start_urls = f
def parse(self, response):
filename = response.url.split("/")[-2]
open(filename, 'wb').write(response.body)
'readlines方法()'保持在每一行的末尾的换行符。我已经提交了一个编辑文件,用于剥离换行符并关闭文件。 –