我进入了一个项目,我处理解析网页的HTML。所以,我拿着我的blog(博客博客 - 动态模板)并试图阅读它的内容。不幸的是,我没有看到博客网页的“实际”来源。无法找到我的博客的确切源代码
这是我观察到:
我在我的博客的文章随机点击
view source
,并试图找到其中的内容。我找不到任何东西。这是所有的JavaScript。因此,我将网页保存到我的笔记本电脑,并再次检查源代码,这次我找到了内容。
我还在浏览器中使用
developers tools
检查了源代码,并再次找到它中的内容。现在,我尝试了蟒蛇的方式
import urllib from bs4 import BeautifulSoup soup = BeautifulSoup(urllib.urlopen("my-webpage-address")) print soup.prettify()
我甚至没有发现在它的HTML代码的内容。
最后,为什么我无法找到在案例1的源代码的内容,4
我应该如何得到实际的HTML代码?我希望听到任何可以完成这项工作的Python库。
你必须解析JavaScript,这有其他含义。 –