2011-05-24 61 views
6

我想凑英国食品评级机构数据ASPX SEACH结果页面上scraperwiki(http://scraperwiki.com/scrapers/food_standards_agency/)使用机械化/ Python的,但拿出一个(E,G http://ratings.food.gov.uk/QuickSearch.aspx?q=po30)。问题当试图按照其具有的形式是“下一个”页面链接:Screenscaping ASPX与Python机械化 - JavaScript表单提交

<input type="submit" name="ctl00$ContentPlaceHolder1$uxResults$uxNext" value="Next >" id="ctl00_ContentPlaceHolder1_uxResults_uxNext" title="Next >" /> 

表单处理程序是这样的:

<form method="post" action="QuickSearch.aspx?q=po30" onsubmit="javascript:return WebForm_OnSubmit();" onkeypress="javascript:return WebForm_FireDefaultButton(event, 'ctl00_ContentPlaceHolder1_buttonSearch')" id="aspnetForm"> 
<input type="hidden" name="__EVENTTARGET" id="__EVENTTARGET" value="" /> 
<input type="hidden" name="__EVENTARGUMENT" id="__EVENTARGUMENT" value="" /> 
<input type="hidden" name="__LASTFOCUS" id="__LASTFOCUS" value="" /> 

的HTTP跟踪时,我手动点击下一步链接显示__e VENTTARGET为空?我可以在其他刮板上找到的所有婴儿床都显示__EVENTTARGET作为处理下一页的方式。

事实上,我不知道我要刮的页面是如何加载下一页的?无论我扔在刮板上,它只会加载第一个结果页面。 (即使能够改变每个页面的结果数量也是有用的,但是我也看不出如何做到这一点)。

所以 - 关于如何刮取1 + N结果页面的任何想法N> 0?

回答

8

机械化doesn't处理javascript,但对于这种特殊情况,它并不是t需要。

首先我们打开结果页面与机械化

url = 'http://ratings.food.gov.uk/QuickSearch.aspx?q=po30' 
br = mechanize.Browser() 
br.set_handle_robots(False) 
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')] 
br.open(url) 
response = br.response().read() 

然后我们选择ASPNET形式:

br.select_form(nr=0) #Select the first (and only) form - it has no name so we reference by number 

的表单已经5提交按钮 - 我们要提交一个需要我们去接下来的结果页面:

response = br.submit(name='ctl00$ContentPlaceHolder1$uxResults$uxNext').read() #"Press" the next submit button 

其他形式提交按钮:

ctl00$uxLanguageSwitch # Switch language to Welsh 
ctl00$ContentPlaceHolder1$uxResults$Button1 # Search submit button 
ctl00$ContentPlaceHolder1$uxResults$uxFirst # First result page 
ctl00$ContentPlaceHolder1$uxResults$uxPrevious # Previous result page 
ctl00$ContentPlaceHolder1$uxResults$uxLast # Last result page 

在机械化,我们可以得到这样的形式信息:

for form in br.forms(): 
    print form 
2

机械化不处理JavaScript。

有许多方法来处理这个问题,但是,包括QtWebKitpython-spidermonkeyHtmlUnit(用Jython),或SeleniumRC

这里是怎样与SeleniumRC来完成:

import selenium 
sel=selenium.selenium("localhost",4444,"*firefox", "http://ratings.food.gov.uk") 
sel.start() 
sel.open("QuickSearch.aspx?q=po30") 
sel.click('ctl00$ContentPlaceHolder1$uxResults$uxNext') 

参见以下相关SO问题:

  1. How to click a link that has JavaScript
  2. Click on a JavaScript link within Python