我想获取网站中的所有标题()。用Beautifulsoup和Requests刮取'N'页(如何获得真实页码)
http://www.shyan.gov.cn/zwhd/web/webindex.action
现在,我的代码只能成功擦除一个页面。但是,我想在上面的网站上找到多个可用的页面。
例如,通过上面的url,当我点击链接到“第2页”时,整个网址不会改变。我查看了页面源代码,并看到javascript代码像这样前进到下一页:javascript:gotopage(2)或javascript:void(0)。 我的代码是在这里(获取页面1)
from bs4 import Beautifulsoup
import requests
url = 'http://www.shyan.gov.cn/zwhd/web/webindex.action'
r = requests.get(url)
soup = Beautifulsoup(r.content,'lxml')
titles = soup.select('td.tit3 > a')
for title in titles:
print(title.get_text())
如何将我的代码更改为刮去所有可用列出的网页标题? 非常感谢!
非常感谢!但是我无法得到下一页。我的代码在下面。请帮我修改它。 –