0
我有一个包含许多网址的文件。我愿意从这些网址中提取链接,然后提取不同网页的标题和元数据。
我想知道有多少网址可以输入到Scrapy爬虫,这样我就可以得到相应的结果。
我不知道scrapy是否会对url扫描有任何限制,并从url中提取链接。
我也想知道如何随机抽取链接?使用Scrapy可以处理多少个URL?
le = LinkExtractor()
for link in le.extract_links(response):
yield scrapy.Request(link.url, callback=self.parse_inof)
请参阅上面的代码。我正在使用这个来从网址中提取链接。
请让我知道,我该如何做到这一点。
我试过'随机'。但我不知道它在我的情况下不起作用。我仍然在寻找原因。 –
也有任何限制的网址处理?我有一些URL。 –
你试过 rand_item = random.choice(items)? 如果设置 CLOSESPIDER_ITEMCOUNT为0,将永远持续下去,而没有记忆或也不例外 –