当页面需要太长的响应时间时urllib请求失败

我有一个简单的函数（在python 3中）获取一个url并尝试解决它：打印错误代码（如果有）（例如404）或解析其中一个缩短网址到完整的网址。我的网址位于csv文件的一列中，输出保存在下一列中。问题出现在程序遇到一个URL，服务器花费很长时间来响应 - 程序崩溃。如果服务器耗时过长，是否有一种简单的方法可以强制urllib打印错误代码。我看着Timeout on a function call，但这看起来有点太复杂，因为我刚刚开始。有什么建议么？当页面需要太长的响应时间时urllib请求失败

即（COL A）SHORTURL（COL B）http://deals.ebay.com/500276625

def urlparse(urlColumnElem): 
    try: 
     conn = urllib.request.urlopen(urlColumnElem) 
    except urllib.error.HTTPError as e: 
     return (e.code) 
    except urllib.error.URLError as e: 
     return ('URL_Error') 
    else: 
     redirect=conn.geturl() 
     #check redirect 
     if(redirect == urlColumnElem): 
      #print ("same: ") 
      #print(redirect) 
      return (redirect) 
     else: 
      #print("Not the same url ") 
      return(redirect)

编辑：如果有人得到http.client.disconnected错误（比如我），看到这个问题/答案http.client.RemoteDisconnected error while reading/parsing a list of URL's

来源

2017-04-27 Thomas E

有无看看docs：

urllib.request.urlopen(url, data=None[, timeout]) 
可选的超时参数指定阻塞操作（如连接尝试）的超时（以秒为单位）（如果未指定，则将使用全局默认超时设置）。

您可以设置一个现实的timeout（以秒为单位）的过程：

conn = urllib.request.urlopen(urlColumnElem, timeout=realistic_timeout_in_seconds)

，为了您的代码停止破碎，移动try except块内的一切：

import socket 

def urlparse(urlColumnElem): 
    try: 
     conn = urllib.request.urlopen(
        urlColumnElem, 
        timeout=realistic_timeout_in_seconds 
       ) 
     redirect=conn.geturl() 
     #check redirect 
     if(redirect == urlColumnElem): 
      #print ("same: ") 
      #print(redirect) 
      return (redirect) 
     else: 
      #print("Not the same url ") 
      return(redirect) 

    except urllib.error.HTTPError as e: 
     return (e.code) 
    except urllib.error.URLError as e: 
     return ('URL_Error') 
    except socket.timeout as e: 
     return ('Connection timeout')

现在如果发生超时，您将捕获异常并且程序不会粉碎。

祝你好运:)

来源

2017-04-27 09:40:13

这部分工作，但我只是得到一个超时错误，程序退出，而不是等待更长的时间。 142 追溯（最近呼叫最后）： ... socket.timeout：超时 –

我已更新我的答案，超时引发一个'socket.timeout'异常 –

是的，我得到了两个结合答案底端。对于任何初学者，还需要导入套接字线才能工作谢谢！ –

首先，是不是可以用来控制允许urlopen时间超时参数。接下来，urlopen中的超时应该抛出异常，更确切地说是socket.timeout。如果你不希望它中止程序，你只需要抓住它：

def urlparse(urlColumnElem, timeout=5): # allow 5 seconds by default 
    try: 
     conn = urllib.request.urlopen(urlColumnElem, timeout = timeout) 
    except urllib.error.HTTPError as e: 
     return (e.code) 
    except urllib.error.URLError as e: 
     return ('URL_Error') 
    except socket.timeout: 
     return ('Timeout') 
    else: 
     ...

来源

2017-04-27 09:45:22

当页面需要太长的响应时间时urllib请求失败

回答

相关问题