我已经写了使用硒组合蟒蛇摆脱它不显示,直到滚动最下面的所有链接网页上的所有公司链接脚本的所有链接。但是,当我运行我的脚本时,我会得到期望的链接,但是有很多重复的内容正在被抓取。在这一点上,我不明白我怎样才能修改我的脚本来获得独特的链接。这是我迄今为止所尝试的:我的剧本一再解析从无限滚动网页
from selenium import webdriver
import time
driver = webdriver.Chrome()
driver.get('http://fortune.com/fortune500/list/')
while True:
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(3)
for items in driver.find_elements_by_xpath("//li[contains(concat(' ', @class, ' '), ' small-12 ')]"):
item = items.find_elements_by_xpath('.//a')[0]
print(item.get_attribute("href"))
driver.close()
感谢乔治·麦康,为您完美的和可靠的解决方案。它按我想要的那样工作。 – SIM