2012-09-30 35 views
3

我要带许多网页的截图,我写了这个:Python Splinter(SeleniumHQ)如何截取很多网页的截图? [连接被拒绝]

from splinter.browser import Browser 
import urllib2 
from urllib2 import URLError 

urls = ['http://ubuntu.com/', 'http://xubuntu.org/'] 


try : 
    browser = Browser('firefox') 
    for i in range(0, len(urls)) : 
     browser.visit(urls[i]) 
     if browser.status_code.is_success() : 
      browser.driver.save_screenshot('your_screenshot' + str(i) + '.png') 
     browser.quit() 
except SystemError : 
    print('install firefox!') 
except urllib2.URLError, e: 
    print(e) 
    print('theres no such website') 
except Exception, e : 
    print(e) 
    browser.quit() 

,我得到这个错误:

<urlopen error [Errno 111] Connection refused> 

如何解决它:)

编辑

当我在txt文件中有链接时,下面的代码不起作用:

from splinter import Browser 
import socket 

urls = [] 
numbers = [] 

with open("urls.txt", 'r') as filename : 
    for line in filename : 
     line = line.strip() 
     words = line.split("\t") 
     numbers.append(str(words[0])) 
     urls.append(str(words[1].rstrip())) 

print(urls) 

browser = None  
try: 
    browser = Browser('firefox') 
    for i, url in enumerate(urls, start=1): 
     try: 
      browser.visit(url) 
      if browser.status_code.is_success(): 
       browser.driver.save_screenshot('your_screenshot_%03d.png' % i) 
     except socket.gaierror, e: 
      print "URL not found: %s" % url 
finally: 
    if browser is not None: 
     browser.quit() 

我的txt文件看起来是这样的:

1 http//ubuntu.com/ 
2 http//xubuntu.org/ 
3 http//kubuntu.org/ 

,当我跑了,我得到了错误:

$ python test.py 
['http//ubuntu.com/', 'http//xubuntu.org/', 'http//kubuntu.org/'] 
Traceback (most recent call last): 
    File "test.py", line 21, in <module> 
    browser.visit(url) 
    File "/usr/local/lib/python2.7/dist-packages/splinter/driver/webdriver/__init__.py", line 79, in visit 
    self.driver.get(url) 
    File "/usr/local/lib/python2.7/dist-packages/selenium/webdriver/remote/webdriver.py", line 168, in get 
    self.execute(Command.GET, {'url': url}) 
    File "/usr/local/lib/python2.7/dist-packages/selenium/webdriver/remote/webdriver.py", line 156, in execute 
    self.error_handler.check_response(response) 
    File "/usr/local/lib/python2.7/dist-packages/selenium/webdriver/remote/errorhandler.py", line 147, in check_response 
    raise exception_class(message, screen, stacktrace) 
selenium.common.exceptions.WebDriverException: Message: u'Component returned failure code: 0x804b000a (NS_ERROR_MALFORMED_URI) [nsIIOService.newURI]' 

什么错了?

+0

第一步 - 只是尝试使用浏览器“正常”打开页面,看看是否有效... –

+0

@JonClements:它工作时,我只有一个链接,但当我有更多,我得到这个错误: ( – Katie

+0

是的,尝试打开'http // ubuntu.com /'并祈祷。'NS_ERROR_MALFORMED_URI'明确表示URL不正确。 – erm3nda

回答

6

你的问题是你在你的循环中通过URL做browser.quit(),所以它不再打开第二个URL。

这里是你的代码的更新版本:

from splinter import Browser 
import socket 

urls = ['http://ubuntu.com/', 'http://xubuntu.org/'] 

browser = None  
try: 
    browser = Browser('firefox') 
    for i, url in enumerate(urls, start=1): 
     try: 
      browser.visit(url) 
      if browser.status_code.is_success(): 
       browser.driver.save_screenshot('your_screenshot_%03d.png' % i) 
     except socket.gaierror, e: 
      print "URL not found: %s" % url 
finally: 
    if browser is not None: 
     browser.quit() 

主要的变化是移动browser.quit()代码到你的主要异常处理程序的finally,所以它会不管发生什么不顺心。还请注意使用enumerate来提供迭代器值及其索引;这是Python在维护自己的索引指针方面的推荐方法。

我不确定它是否与您的代码相关,但我发现splinterurllib2.URLError之间产生了socket.gaierror例外,所以我展示了如何将它们陷入困境。我在循环中移动了这个异常处理程序;即使其中一个或多个URL不存在,这也将继续获取剩余的屏幕截图。

+0

非常感谢您(我必须先测试它),但我认为这正是我需要的!Thaaaanks:* – Katie

+0

我有这个代码的一些问题:(你能这么友好,看看我的编辑?我粘贴了一个新的版本,我有* .txt文件中的链接,但它不想工作:/ – Katie

+0

一般而言,建议您开始一个新问题以关注新问题。 –