1
我试图解析一个HTML文档,找到使用Beautiful Soup
的链接,发现一个奇怪的行为。该页面是http://people.csail.mit.edu/gjtucker/。这里是我的代码:美丽的汤分析器无法找到链接
from bs4 import BeautifulSoup
import requests
user_agent = {'User-agent': 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.52 Safari/537.17'}
t=requests.get(url, headers = user_agent).text
soup=BeautifulSoup(t, 'html.parser')
for link in soup.findAll('a'):
print link['href']
这将打印两个环节:http://www.amazon.jobs/team/speech-amazon
和https://scholar.google.com/citations?user=-gJkPHIAAAAJ&hl=en
,而显然有页面有更多的联系。
任何人都可以重现吗?这个网址发生这种情况的具体原因是什么?几个outher urls工作得很好。