1
我有一个webcrawler,我想通过它检索到的html + javascript到selenium,这可能吗?为了澄清我不想使用webdriver.get来检索硒的页面,因为我的爬虫更快。你如何将html传递给Selenium
我有一个webcrawler,我想通过它检索到的html + javascript到selenium,这可能吗?为了澄清我不想使用webdriver.get来检索硒的页面,因为我的爬虫更快。你如何将html传递给Selenium
我最终在xvfb服务器上用PyQt4抓取了网页,因为我使用的是amazon ec2,它不包含x11。下面的代码加载包含JavaScript的网页,并在返回html之前等待7秒,以便所有的JavaScript将完成加载。
import sys
from PyQt4.QtGui import *
from PyQt4.QtCore import *
from PyQt4.QtWebKit import *
from xvfbwrapper import Xvfb
class Render(QWebPage):
def __init__(self, url):
self.app = QApplication(sys.argv)
QWebPage.__init__(self)
self.timerScreen = QTimer()
self.timerScreen.setInterval(7000)
self.timerScreen.setSingleShot(True)
self.timerScreen.timeout.connect(self.getHtml)
self.loadFinished.connect(self.timerScreen.start)
self.mainFrame().load(QUrl(url))
self.app.exec_()
def getHtml(self):
self.frame = self.mainFrame()
self.app.quit()
args = {"nolisten":"tcp"}
vdisplay = Xvfb(**args)
vdisplay.start()
url = 'url here'
r = Render(url)
html = r.frame.toHtml()
print html
f = open("./test.html","wb")
f.write(html.__str__().encode("utf-8"))
f.close()
#stri = str(html).encode("utf-8")
vdisplay.stop()
保存到文件,然后用“file:// somepath”在Selenium中打开它? – dilbert
将它传递给硒后,我希望页面上的JavaScript运行。 – Archetype2
@dilbert ok,所以我将html页面保存到一个文件中,并使用webdriver.get(文件路径),但未加载JavaScript,但我可以获取html页面的标题。来自服务器的html页面。 – Archetype2