我想刮一个网页:https://www.justdial.com/Mumbai/Dairy-Product-Retailers-in-Thane/nct-10152687Beautifulsoup - 刮网页 - 动态加载
我需要所有的商店名称的数据,TEL-NUM和他们的地址
但我只能做到这一点高达10 原因加载其他项目需要滚动网页
我的代码:
import requests
import bs4
crawl_url = requests.get('https://www.justdial.com/Mumbai/Dairy-Product-
Retailers-in-Thane/nct-10152687', headers={'User-Agent': 'Mozilla/5.0'})
crawl_url.raise_for_status()
soup = bs4.BeautifulSoup(crawl_url.text, 'lxml')
for elems in soup.find_all('span', class_="jcn"):
select_a = elems.select('a')
for links in select_a:
href = links.get('href')
res = requests.get(href, headers={'User-Agent': 'Mozilla/5.0'})
xsoup = bs4.BeautifulSoup(res.text, 'lxml')
Name = xsoup.select('.fn')
tel = xsoup.select('.tel')
add = xsoup.select('.adrstxtr')
a = Name[0]
b = tel[0]
c = add[0]
print(a.getText())
print("--"*10)
print(b.getText())
print("--"*10)
print(c.getText())
print("=="*25)
当我们向下滚动霸GE等物品装入了 所以我想知道如何得到数据的任何数字/项目我想
我试图this
但没有声张很好理解的,也是我没得到了POST方法:/
如果需要更多的信息告诉我的tmadam给出
你可以将你的代码包装在一个函数中,并使用一个循环来获得下一页,并将html传递给该函数。 –
谢谢!!这工作:) – lightfast