2016-06-13 15 views
-3

我想以某种复制/粘贴格式从页面获取所有信息,但由于安全限制,我无法使用站点中的urllib或json信息。我想知道是否有方法让python打开网页并复制实际页面本身,而不是从API中检索html代码或JSON?从没有urllib或json的站点获取信息

+1

你是什么意思_copy实际页面本身_?让浏览器渲染页面? – Finwood

+1

我很好奇你对'实际页面'的定义吗?该页面是html和javascript。 –

+0

[任何人都知道一个好的基于Python的网络爬虫,我可以使用?]可能的重复(http://stackoverflow.com/questions/419235/anyone-know-of-a-good-python-based-web-crawler - 这是我可以使用) – kloddant

回答

1

您可以通过selenium加载一个真正的浏览器的网页并获取.page_source

from selenium import webdriver 

driver = webdriver.Firefox() 
driver.get("url") 

print(driver.page_source) 
1

取决于...你只想使用标准的Python?如果是,则:

  • ,如果你使用的是Windows,你可以下载页面在Linux或Mac bitsadmin

  • ,那么你可以使用curl

    ​​

连同subprocess.check_output()

另有一个包如selenium作为另一个答案提到。