网站跟踪链接与手动浏览不一样

我已经为840个网址刮了一个网站... 当我为更多的隐私信息重新命名网址时，我的python scraper没有收录与手动点击链接相同的数据。网站跟踪链接与手动浏览不一样

例如，当我访问这个网站，https://salesweb.civilview.com/Sales/SalesSearch

如果我点击列表中的第一个“细节”，把它带到一个页面，了解更多信息。

所给出的信息是相对链接显示“/销售/ SaleDetails？属性ID = 254119896”

我刮了“细节”相对链接，然后重建链接相匹配的绝对地址。这个地址变成

https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=254119896

但是我这样做，并尝试刮的时候，我一共拿到了不同的数据集，并带我到一个普通的着陆页。

https://salesweb.civilview.com/

我起初以为，我需要使用模拟浏览器来解决这个问题，但是现在我不知道。

这里是我的代码：

import time 
from selenium import webdriver 

baseurl='https://salesweb.civilview.com' 
link='/Sales/SaleDetails?PropertyId=254119946' 
url1=baseurl+link 

driver = webdriver.PhantomJS() 
driver.get(url1) 
html = driver.page_source 
time.sleep(10) 
driver.quit()

来源

2017-07-25 user3757265

我找到了一个解决办法，如果你第一次与网站进行互动，您可以访问其他网址。不幸的是，我不知道它为什么有效：

driver = webdriver.PhantomJS() 
driver.get("https://salesweb.civilview.com/") 
driver.find_element_by_link_text('Atlantic County, NJ').click() 
driver.get("https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=254119946") 
html = driver.page_source 
print(html)

来源

2017-07-25 02:12:18

网站跟踪链接与手动浏览不一样

回答

相关问题