2
我已经为840个网址刮了一个网站... 当我为更多的隐私信息重新命名网址时,我的python scraper没有收录与手动点击链接相同的数据。网站跟踪链接与手动浏览不一样
例如,当我访问这个网站,https://salesweb.civilview.com/Sales/SalesSearch
如果我点击列表中的第一个“细节”,把它带到一个页面,了解更多信息。
所给出的信息是相对链接显示“/销售/ SaleDetails?属性ID = 254119896”
我刮了“细节”相对链接,然后重建链接相匹配的绝对地址。 这个地址变成
https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=254119896
但是我这样做,并尝试刮的时候,我一共拿到了不同的数据集,并带我到一个普通的着陆页。
https://salesweb.civilview.com/
我起初以为,我需要使用模拟浏览器来解决这个问题,但是现在我不知道。
这里是我的代码:
import time
from selenium import webdriver
baseurl='https://salesweb.civilview.com'
link='/Sales/SaleDetails?PropertyId=254119946'
url1=baseurl+link
driver = webdriver.PhantomJS()
driver.get(url1)
html = driver.page_source
time.sleep(10)
driver.quit()