2017-02-10 24 views
0

我有一个包含许多网址的文件。我愿意从这些网址中提取链接,然后提取不同网页的标题和元数据。
我想知道有多少网址可以输入到Scrapy爬虫,这样我就可以得到相应的结果。
我不知道scrapy是否会对url扫描有任何限制,并从url中提取链接。
我也想知道如何随机抽取链接?使用Scrapy可以处理多少个URL?

le = LinkExtractor() 
    for link in le.extract_links(response): 
     yield scrapy.Request(link.url, callback=self.parse_inof) 

请参阅上面的代码。我正在使用这个来从网址中提取链接。
请让我知道,我该如何做到这一点。

回答

1
CONCURRENT_ITEMS 
Default: 100 

在项目处理器(也称为项目管道)中并行处理的最大并发项目数(每个响应)。

CONCURRENT_REQUESTS 
Default: 16 

并发(即同时的。)将由Scrapy下载

编辑来执行请求的最大数目; Altso,可能可以使用,

import random 

list = [20, 16, 10, 5]; 
random.shuffle(list) 
print "Reshuffled list : ", list 

random.shuffle(list) 
print "Reshuffled list : ", list 

You might need to give the list urls a numeric id first. 
+0

我试过'随机'。但我不知道它在我的情况下不起作用。我仍然在寻找原因。 –

+0

也有任何限制的网址处理?我有一些URL。 –

+0

你试过 rand_item = random.choice(items)? 如果设置 CLOSESPIDER_ITEMCOUNT为0,将永远持续下去,而没有记忆或也不例外 –

相关问题