我得到的只是产品ID或网站HTML代码中的“diamond-data-id”。如何从html中刮取产品ID?
我想提取所有产品id到一个csv文件,所以我可以刮所有有效的产品页面,而不是所有的900万页有错误/ 404页面。
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import csv
import time
import nltk
import string
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains
import re
url = 'https://www.bluenile.com/diamond-search?track=NavDiaSea'
driver = webdriver.Chrome()
driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, "lxml")
driver.close()
这太棒了,非常感谢你!后续问题,我能够做300个数据记录的一个请求,但我们如何继续获得独特的产品ID?来自相同的URL,或者我如何遍历500个请求以获得140K +产品id?预先感谢您... –
调整我的答案。您必须修改此URL中的参数才能获得比初始结果更多的参数。 – rrschmidt
太棒了。非常感谢! –