我正在尝试在python中编写一个程序,该程序从网页中读取所有数据,并将任何标题标记<h1>
到<h6>
的内容附加到列表中。到目前为止,我只是想首先获取网站信息,事实证明这很困难。从URL中提取HTML信息
编辑:这是一个班。令人遗憾的是,我们不允许使用未预先安装python的库。
编辑2:感谢您的所有提示。该程序现在成功读取给定网站的HTML。有没有人有任何建议,搜索网页内的特定字符串(即<H>
标签)?
import urllib
from urllib.request import urlopen
#example URL that includes an <h> tag: http://www.hobo-web.co.uk/headers/
userAddress = input("Enter a website URL: ")
webPage = urllib.request.urlopen(userAddress)
print (webPage.read())
webPage.close()
http://docs.python-requests.org/en/latest/和http://www.crummy.com/software/BeautifulSoup/ BS4/DOC / – pvg