2017-04-27 57 views
1

我有一个简单的函数(在python 3中)获取一个url并尝试解决它:打印错误代码(如果有)(例如404)或解析其中一个缩短网址到完整的网址。我的网址位于csv文件的一列中,输出保存在下一列中。问题出现在程序遇到一个URL,服务器花费很长时间来响应 - 程序崩溃。如果服务器耗时过长,是否有一种简单的方法可以强制urllib打印错误代码。我看着Timeout on a function call,但这看起来有点太复杂,因为我刚刚开始。有什么建议么?当页面需要太长的响应时间时urllib请求失败

即(COL A)SHORTURL(COL B)http://deals.ebay.com/500276625

def urlparse(urlColumnElem): 
    try: 
     conn = urllib.request.urlopen(urlColumnElem) 
    except urllib.error.HTTPError as e: 
     return (e.code) 
    except urllib.error.URLError as e: 
     return ('URL_Error') 
    else: 
     redirect=conn.geturl() 
     #check redirect 
     if(redirect == urlColumnElem): 
      #print ("same: ") 
      #print(redirect) 
      return (redirect) 
     else: 
      #print("Not the same url ") 
      return(redirect) 

编辑:如果有人得到http.client.disconnected错误(比如我),看到这个问题/答案http.client.RemoteDisconnected error while reading/parsing a list of URL's

回答

1

有无看看docs

urllib.request.urlopen(url, data=None[, timeout]) 

可选的超时参数指定阻塞操作(如连接尝试)的超时(以秒为单位)(如果未指定,则将使用全局默认超时设置)。

您可以设置一个现实的timeout(以秒为单位)的过程:

conn = urllib.request.urlopen(urlColumnElem, timeout=realistic_timeout_in_seconds) 

,为了您的代码停止破碎,移动try except块内的一切:

import socket 

def urlparse(urlColumnElem): 
    try: 
     conn = urllib.request.urlopen(
        urlColumnElem, 
        timeout=realistic_timeout_in_seconds 
       ) 
     redirect=conn.geturl() 
     #check redirect 
     if(redirect == urlColumnElem): 
      #print ("same: ") 
      #print(redirect) 
      return (redirect) 
     else: 
      #print("Not the same url ") 
      return(redirect) 

    except urllib.error.HTTPError as e: 
     return (e.code) 
    except urllib.error.URLError as e: 
     return ('URL_Error') 
    except socket.timeout as e: 
     return ('Connection timeout') 

现在如果发生超时,您将捕获异常并且程序不会粉碎。

祝你好运:)

+0

这部分工作,但我只是得到一个超时错误,程序退出,而不是等待更长的时间。 142 追溯(最近呼叫最后): ... socket.timeout:超时 –

+0

我已更新我的答案,超时引发一个'socket.timeout'异常 –

+0

是的,我得到了两个结合答案底端。对于任何初学者,还需要导入套接字线才能工作谢谢! –

0

首先,是不是可以用来控制允许urlopen时间超时参数。接下来,urlopen中的超时应该抛出异常,更确切地说是socket.timeout。如果你不希望它中止程序,你只需要抓住它:

def urlparse(urlColumnElem, timeout=5): # allow 5 seconds by default 
    try: 
     conn = urllib.request.urlopen(urlColumnElem, timeout = timeout) 
    except urllib.error.HTTPError as e: 
     return (e.code) 
    except urllib.error.URLError as e: 
     return ('URL_Error') 
    except socket.timeout: 
     return ('Timeout') 
    else: 
     ... 
相关问题