你如何将html传递给Selenium

我有一个webcrawler，我想通过它检索到的html + javascript到selenium，这可能吗？为了澄清我不想使用webdriver.get来检索硒的页面，因为我的爬虫更快。你如何将html传递给Selenium

2013-07-13 Archetype2

保存到文件，然后用“file：// somepath”在Selenium中打开它？ – dilbert

将它传递给硒后，我希望页面上的JavaScript运行。 – Archetype2

@dilbert ok，所以我将html页面保存到一个文件中，并使用webdriver.get（文件路径），但未加载JavaScript，但我可以获取html页面的标题。来自服务器的html页面。 – Archetype2

我最终在xvfb服务器上用PyQt4抓取了网页，因为我使用的是amazon ec2，它不包含x11。下面的代码加载包含JavaScript的网页，并在返回html之前等待7秒，以便所有的JavaScript将完成加载。

import sys 
from PyQt4.QtGui import * 
from PyQt4.QtCore import * 
from PyQt4.QtWebKit import * 
from xvfbwrapper import Xvfb 

class Render(QWebPage): 
    def __init__(self, url): 
     self.app = QApplication(sys.argv) 
     QWebPage.__init__(self) 
     self.timerScreen = QTimer() 
     self.timerScreen.setInterval(7000) 
     self.timerScreen.setSingleShot(True) 
     self.timerScreen.timeout.connect(self.getHtml) 
     self.loadFinished.connect(self.timerScreen.start) 
     self.mainFrame().load(QUrl(url)) 
     self.app.exec_() 
    def getHtml(self): 
     self.frame = self.mainFrame() 
     self.app.quit() 
args = {"nolisten":"tcp"} 
vdisplay = Xvfb(**args) 
vdisplay.start() 
url = 'url here' 
r = Render(url) 
html = r.frame.toHtml() 
print html 
f = open("./test.html","wb") 
f.write(html.__str__().encode("utf-8")) 
f.close() 
#stri = str(html).encode("utf-8") 
vdisplay.stop()

来源

2013-07-15 23:31:59 Archetype2

你如何将html传递给Selenium

回答

相关问题