0
我已经尝试使用:是否有可能得到一个网页后JS的原始文本在python
html = requests.get(my_website).text
soup = BeautifulSoup(html)
print soup.get_text()
但是我碰到的问题是,JavaScript是没有得到呈现。
我已经尝试使用:是否有可能得到一个网页后JS的原始文本在python
html = requests.get(my_website).text
soup = BeautifulSoup(html)
print soup.get_text()
但是我碰到的问题是,JavaScript是没有得到呈现。
JavaScript不会自动使用BeautifulSoup呈现。你可能想尝试像Selenium
,Mechanize
,PhantomJs
与BeautifulSoup呈现JavaScript的工具。 Dryscrape也是一个很好的工具。
这个,但是很多这些工具的术语是“无头浏览器”。 BeautifulSoul只是一个HTML解析器(它是浏览器的一部分)。 –
你的意思是没有得到渲染?你想获得实际的JavaScript代码?它是否加载在一个单独的.js文件中? –
@MKYung哦不,例如,如果文章是通过Ajax加载的,不会因为明显的原因而加载,因为这是对原始html的简单获取请求。 –
美丽的汤不运行JavaScript。为了让它运行,你需要一个像@Rahul提到的无头浏览器 –