Q

Python刮板机械化/ javascript

2013-06-13 130 views 2 likes

2

我必须从this site刮去前美国州长的所有信息。但是，要读出结果并按照链接进行操作，我需要访问不同的结果页面，或者，最好将每页显示的结果限制设置为最大值100（我认为不超过100每个州的结果）。然而，页面信息似乎使用JavaScript，不是一个窗体的一部分，它似乎我不能作为一个控件访问它。Python刮板机械化/ javascript

有关如何继续的任何信息？我对python来说很新，只是不时地将它用于这样的任务。这是通过主表单迭代的一些简单代码。

import mechanize 
import lxml.html 
import csv 

site = "http://www.nga.org/cms/FormerGovBios" 
output = csv.writer(open(r'output.csv','wb')) 
br = mechanize.Browser() 

response = br.open(site) 
br.select_form(name="governorsSearchForm") 
states = br.find_control(id="states-field", type="select").items 
for pos, item in enumerate(states[1:2]): 
    statename = str([label.text for label in item.get_labels()]) 
    print pos, item.name, statename, len(states) 
    br.select_form(name="governorsSearchForm") 
    br["state"] = [item.name] 
    response = br.submit(name="submit", type="submit") 
    # now set page limit to 100, get links and descriptions\ 
    # and follow each link to get information 
    for form in br.forms(): 
     print "Form name:", form.name 
     print form, "\n" 
    for link in br.links(): 
     print link.text, link.url

2013-06-13 ilprincipe

+1

将页面大小更改为2500并保存HTML，然后根据需要解析保存的HTML。 – EPQRS

A

回答

0

好吧，这是一个螺旋球的方法。使用不同的搜索设置进行游戏时，我发现要显示的结果数在url中。所以我将它改为每页3000个，因此它全部适合1页。

http://www.nga.org/cms/FormerGovBios?begincac77e09-db17-41cb-9de0-687b843338d0=0&higherOfficesServed=&lastName=&sex=Any&honors=&submit=Search&state=Any&college=&party=&inOffice=Any&biography=&race=Any&birthState=Any&religion=&militaryService=&firstName=&nbrterms=Any&warsServed=&&pagesizecac77e09-db17-41cb-9de0-687b843338d0=3000

后，它矿脉这确实需要一段时间，我会点击鼠标右键，去浏览网页源文件。将其复制到我电脑上的文本文件中。然后，我可以从文件中删除所需的信息，而无需转到服务器并处理JavaScript。

我可以推荐"BeautifulSoup"来浏览html文件。

2013-06-26 03:49:52 Jacob

+0

不知何故，我错过了这个，这是最简单的方法。谢谢，刚刚获取数据。 – ilprincipe

+0

我很高兴能帮到你。如果您需要澄清任何事情，请随时发表评论。 – Jacob

0

我会做到这一点与phantomjs http://phantomjs.org/（JavaScript）的见https://github.com/ariya/phantomjs/wiki/Page-Automation

2013-06-13 17:29:48 sanyi

+0

我对Javscript几乎一无所知。我会如何去做这件事？ – ilprincipe

0

注意，页面上的元素select改变window.location。

我想你可以通过用你需要的值替换$('#pageSizeSelector....-..-..-..-....').val()来构造一个合适的URI来加载页面。

2013-06-24 13:13:44 utapyngo

1

您可以使用PySide，它是QtWebKit的绑定。使用QtWebKit，您可以检索使用Javascript的页面，并在Javascript填充html后解析它。所以你不需要知道Javascript。其他选择是Selenium和PhantomJS。

2013-06-24 13:39:38 dablak

2

我用硒解决了这个问题。它是完整的firefox（或其他）浏览器，您可以在代码中操作。

2013-06-25 15:07:28 user1941407

相关问题

11. Python的机械化与通过的Javascript
12. Python机械化上传
13. 使用机械化和python站点刮下拉列表
14. 机械化 - Python问题
15. Raspbian上的Python机械化
16. 使用机械化与Python
17. 机械化流下载python
18. Pinterest使用Python机械化
19. Python中，机械化 - 由名
20. 使用Python机械化
21. Python机械化复选框
22. 机械化错误 - Python
23. 在机械化
24. Python机械化：选择一个选项
25. 与机械化
26. 机械化无法登录python
27. Python机械化阻止连接：关闭
28. Python机械化 - 提交表单两次
29. Python＆机械化：如何在连续的页面上刮取页面？
30. 错误刮宝石网站与红宝石机械化。机械化:: ResponseCodeError：404 =>网:: HTTPNotFound