2017-07-25 72 views
2

我已经为840个网址刮了一个网站... 当我为更多的隐私信息重新命名网址时,我的python scraper没有收录与手动点击链接相同的数据。网站跟踪链接与手动浏览不一样

例如,当我访问这个网站,https://salesweb.civilview.com/Sales/SalesSearch

如果我点击列表中的第一个“细节”,把它带到一个页面,了解更多信息。

所给出的信息是相对链接显示“/销售/ SaleDetails?属性ID = 254119896”

我刮了“细节”相对链接,然后重建链接相匹配的绝对地址。 这个地址变成

https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=254119896

但是我这样做,并尝试刮的时候,我一共拿到了不同的数据集,并带我到一个普通的着陆页。

https://salesweb.civilview.com/

我起初以为,我需要使用模拟浏览器来解决这个问题,但是现在我不知道。

这里是我的代码:

import time 
from selenium import webdriver 

baseurl='https://salesweb.civilview.com' 
link='/Sales/SaleDetails?PropertyId=254119946' 
url1=baseurl+link 

driver = webdriver.PhantomJS() 
driver.get(url1) 
html = driver.page_source 
time.sleep(10) 
driver.quit() 

回答

0

我找到了一个解决办法,如果你第一次与网站进行互动,您可以访问其他网址。不幸的是,我不知道它为什么有效:

driver = webdriver.PhantomJS() 
driver.get("https://salesweb.civilview.com/") 
driver.find_element_by_link_text('Atlantic County, NJ').click() 
driver.get("https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=254119946") 
html = driver.page_source 
print(html)