我想从这个page上的“箱子得分”按钮上刮下链接。该按钮应该是这个样子从页面上的按钮上刮下链接
http://www.espn.com/nfl/boxscore?gameId=400874795
我试图用这个代码,看看我是否能访问按钮,但我不能。
from bs4 import BeautifulSoup
import requests
url = 'http://www.espn.com/nfl/scoreboard/_/year/2016/seasontype/1/week/2'
advanced = url
r = requests.get(advanced)
data = r.text
soup = BeautifulSoup(data,"html.parser")
for link in soup.find_all('a'):
print link
1)下载并检查页面的原始HTML; 2)找到你想要刮的元素; 3)编写Python代码搜索这些元素; 4)??? 5)利润! – ForceBru
这里的问题在于,您从网址获取的html实际上并不是您在浏览器中查看时看到的页面。有很多Ajax调用来填充页面,所以当您发出初始请求时,该数据还没有存在 – wpercy