1
我仍然不明白使用BeautifulSoup的情况。我可以用它来解析网页,这里的“example_website.com”的原始HTML:通过使用BeautifulSoup的超链接访问表格数据
from bs4 import BeautifulSoup # load BeautifulSoup class
import requests
r = requests.get("http://example_website.com")
data = r.text
soup = BeautifulSoup(data)
# soup.find_all('a') grabs all elements with <a> tag for hyperlinks
然后,检索和打印与“HREF”属性的所有元素,我们可以使用一个for循环:
for link in soup.find_all('a'):
print(link.get('href'))
我不明白:我有一个包含多个网页的网站,每个网页都会列出几个带有表格数据的超链接。
我可以使用BeautifulSoup来解析主页,但是如何使用相同的Python脚本来抓取第2页,第3页等等?你如何“访问”通过'href'链接找到的内容?
有没有办法编写一个python脚本来做到这一点?我应该使用蜘蛛吗?
“复杂而缓慢”这就是问题所在。我想我必须逐一处理链接。对于“目录”类型的网站(例如,想想Yelp),这会变得乏味。你将不得不编写多个for循环,并确保你没有跳过任何东西。 (我可能是错的!) – ShanZhengYang