是否有可能抽取数据的形式存在维基百科文章内的子链接如何从维基百科文章中的子链接刮取数据?
import bs4 as bs
import urllib.request
import re
sauce = urllib.request.urlopen('https://en.wikipedia.org/wiki/Greenhouse_gas').read()
soup=bs.BeautifulSoup(sauce,'lxml')
links = soup.find("div",{"id" : "bodyContent"}).findAll("a" , href=re.compile("(/wiki/)+([A-Za-z0-9_:()])+"))
for link in links:
print(link['href'])
webpage=urllib.request.urlopen(link['href'])
soup=bs.BeautifulSoup(webpage,'lxml')
问题是什么,在这里?是的,它“可以从维基百科文章中提取数据形式的子链接”;什么是错误的/运行上面的代码时会得到什么回溯? – blacksite