使用Scrapy可以处理多少个URL？

我有一个包含许多网址的文件。我愿意从这些网址中提取链接，然后提取不同网页的标题和元数据。
我想知道有多少网址可以输入到Scrapy爬虫，这样我就可以得到相应的结果。
我不知道scrapy是否会对url扫描有任何限制，并从url中提取链接。
我也想知道如何随机抽取链接？使用Scrapy可以处理多少个URL？

le = LinkExtractor() 
    for link in le.extract_links(response): 
     yield scrapy.Request(link.url, callback=self.parse_inof)

请参阅上面的代码。我正在使用这个来从网址中提取链接。
请让我知道，我该如何做到这一点。

来源

2017-02-10 Jaffer Wilson

CONCURRENT_ITEMS 
Default: 100

在项目处理器（也称为项目管道）中并行处理的最大并发项目数（每个响应）。

CONCURRENT_REQUESTS 
Default: 16

并发（即同时的。）将由Scrapy下载

编辑来执行请求的最大数目; Altso，可能可以使用，

import random 

list = [20, 16, 10, 5]; 
random.shuffle(list) 
print "Reshuffled list : ", list 

random.shuffle(list) 
print "Reshuffled list : ", list 

You might need to give the list urls a numeric id first.

来源

2017-02-10 07:01:33

我试过'随机'。但我不知道它在我的情况下不起作用。我仍然在寻找原因。 –

也有任何限制的网址处理？我有一些URL。 –

你试过 rand_item = random.choice（items）？如果设置 CLOSESPIDER_ITEMCOUNT为0，将永远持续下去，而没有记忆或也不例外 –

使用Scrapy可以处理多少个URL？

回答

相关问题