3
我希望能够保存一个页面,然后使用lxml.html.parse()
,但我想知道是否可以直接从打开的页面上执行该操作?是否可以使用Selenium/Python而不产生可见窗口?我可以使用lxml吗?
我使用Ubuntu,如果它有任何区别。
编辑:有一种方法直接使用xpath(find_element_by_xpath),所以我想我不需要lxml。但要保存页面,您只需调用page_source方法即可。
我希望能够保存一个页面,然后使用lxml.html.parse()
,但我想知道是否可以直接从打开的页面上执行该操作?是否可以使用Selenium/Python而不产生可见窗口?我可以使用lxml吗?
我使用Ubuntu,如果它有任何区别。
编辑:有一种方法直接使用xpath(find_element_by_xpath),所以我想我不需要lxml。但要保存页面,您只需调用page_source方法即可。
要回答'使用Selenium不会产生一个可见的窗口'的问题,是的,你可以很容易地在Ubunutu上使用PyVirtualDisplay。
from pyvirtualdisplay import Display
from selenium import webdriver
display = Display(visible=0, size=(800, 600))
display.start()
# now Firefox will run in a virtual display.
# you will not see the browser.
browser = webdriver.Firefox()
browser.get('http://www.google.com')
print browser.title
browser.quit()
display.stop()
你也可以使用PowerShell来获取挂钩IE进程,得到的文档元素和设定值 – deadfish