如何从使用Python的网站刮取文本

我使用'requests'和'beautifulSoup'api在python中编写了一段代码，以便从前100个网站中刮取文本数据，并由google返回。那么它的工作原理好于大多数的网站，但它给将在稍后或不响应这些错误在所有响应我收到此错误如何从使用Python的网站刮取文本

提高MaxRetryError（_pool，URL，错误或ResponseError（原因）） requests.packages.urllib3.exceptions.MaxRetryError：HTTPConnectionPool（host ='www.lfpress.com'，port = 80）：最大重试次数超过url：/ 2015/11/06/fair-with-a-flare-samosas （由于NewConnectionError（'：无法建立新连接：[Errno 11001] getaddrinfo失败'））

我应该更改写入请求API的代码吗？或者我需要使用一些代理？我怎样才能离开那个网站并继续下一个网站？由于错误正在阻止我的执行。

来源

2016-01-02 Muhammad Zeeshan

尝试：除了..：通过？ –

非常感谢兄弟（： –

添加一个“尝试，除了”在你电话块捕获该异常并继续，如果你不关心像错误：

import requests 
try: 
    requests.get('http://stackoverflow.com/') 
except requests.packages.urllib3.exceptions.MaxRetryError as e: 
    print repr(e)

来源

2016-01-02 22:17:16 jayme

）非常感谢，我该如何避免requests.packages.urllib3.exceptions中存在的所有异常？不仅仅是MaxRetryError？ –

@MuhammadZeeshan这就是所谓的被动错误处理，只使用'except'而没有指定 –

要展开^，你可以写除了例外作为e：smth smth e – Untitled123

如何从使用Python的网站刮取文本

回答

相关问题