from urllib import request
import urllib
from bs4 import BeautifulSoup as bs
page = request.urlopen("http://someurl.ulr").read()
soup = (page,"lxml")
现在这个过程是非常缓慢的,因为它使一个请求解析数据, 经过指定的步骤,然后我们回到发出请求。网页抓取同时要求
- for example
for links in findAll('a'):
print (links.href)
然后我们又回到提出请求,因为我们想要刮另一个URL,如何加速这个过程?
我应该将URL的整个源代码存储在一个文件中,然后执行必要的操作(解析,查找我们需要的数据)---?
我有这个想法,因为从一个DoS(拒绝服务)脚本 使用导入袜子和线程进行大量的请求。
注意:这只是一个想法, 有没有一种更有效的方法呢?
是的,使用['scrapy'](https://scrapy.org) – eLRuLL
不,我爱我的汤,我会找到一种方式不会让我失望。 –
你可以使用'scrapy'的汤。 Scrapy只向表中添加异步请求。 – eLRuLL