从刮脸的Javascript表格列表中创建数据框

我已经使用Selenium从http://www.fedsdatacenter.com/federal-pay-rates/index.php?n=&l=&a=SECURITIES+AND+EXCHANGE+COMMISSION&o=&y=all刮掉联邦员工职位和薪资信息的动态Javascript表格。（注意：这些都是公有领域的数据，所以不用担心个人信息）。从刮脸的Javascript表格列表中创建数据框

我试图将它放入熊猫DF进行分析。我的问题是我的硒的输入数据是打印的清单：

[u'DOE,JON'], [u'14'], [u'SK'], [u'$176,571.00'], [u'$2,000.00'], [u'SECURITIES AND EXCHANGE COMMISSION'], [u'WASHINGTON'], [u'GENERAL ATTORNEY'], [u'2012']], ...

我想要得到的是，处理的记录为任意数量DF：

NAME  GRADE SCALE SALARY  BONUS  AGENCY LOCATION POSITION YEAR 
Doe, Jon 14 SK $176,571.00 $2,000.00 SEC DC  ATTY  2012 
. 
. 
.

我我试图将这个列表转换成一个字典，使用col函数名称作为元组和数据作为列表等的zip（）函数，尽管它已经很好地了解了Python的特性，但都无济于事。在获得数据之后应该做什么？或者我应该以不同的方式阅读数据？

目前，刮板代码：

from selenium import webdriver 

path_to_chromedriver = '/Users/xxx/Documents/webdriver/chromedriver' # change path as needed 
browser = webdriver.Chrome(executable_path = path_to_chromedriver) 

url = 'http://www.fedsdatacenter.com/federal-pay-rates/index.php' 
browser.get(url) 

inputAgency = browser.find_element_by_id('a') 
inputYear = browser.find_element_by_id('y') 

# Send data 
inputAgency.send_keys('SECURITIES AND EXCHANGE COMMISSION') 
inputYear.send_keys('All') 

# Select 'All' from Years element 
browser.find_element_by_css_selector('input[type=\"submit\"]').click() 
browser.find_element_by_xpath('//*[@id="example_length"]/label/select/option[4]').click() 

SMRtable = browser.find_element_by_id('example') 

scrapedData = [] 

for td in SMRtable.find_elements_by_xpath('.//td'): 
    scrapedData.append([td.get_attribute('innerHTML')]) 
    print td.get_attribute('innerHTML')

来源

2015-12-21 user2559269

您只能使用pandas。

所以，首先你可以检查网页查看页面源：

http://www.fedsdatacenter.com/federal-pay-rates/index.php?n=&l=&a=SECURITIES+AND+EXCHANGE+COMMISSION&o=&y=all

检查线路没有。 14807 - 14826：

// data table initialization 
$(document).ready(function() { 
    $('#example').dataTable({ 
     "bPaginate": true, 
     "bFilter": false, 
     "bProcessing": true, 
     "bServerSide": true, 
     "aoColumns": [ 
     null, 
     null, 
     null, 
     { "sType": 'currency' }, // set currency columns to allow sorting 
     { "sType": 'currency' }, // set second column to currency to allow sorting 
     null, 
     null, 
     null, 
     null 
     ], 
     "sAjaxSource": "output.php?n=&a=SECURITIES AND EXCHANGE COMMISSION&l=&o=&y=all" 
    }); 
});

这意味着当前页使用dataTables和数据从AJAX源作为JSON加载。

所以不是报废HTML，你可以得到干净漂亮的JSON：

output.php?n=&a=SECURITIES AND EXCHANGE COMMISSION&l=&o=&y=all

而最后一个环节是（而不是space使用%20）：

http://www.fedsdatacenter.com/federal-pay-rates/output.php?n=&a=SECURITIES%20AND%20EXCHANGE%20COMMISSION&l=&o=&y=all

JSON：

{"sEcho":0,"iTotalRecords":"7072900","iTotalDisplayRecords":"19919","aaData":[ 
["ZUVER,SHAHEEN H","14","SK","$170,960.00","$0.00","SECURITIES AND EXCHANGE COMMISSION","WASHINGTON","GENERAL ATTORNEY","2014"], 
["ZUR,MIA C.","14","SK","$164,875.00","$0.00","SECURITIES AND EXCHANGE COMMISSION","WASHINGTON","GENERAL ATTORNEY","2014"], 
["ZUNDEL,JENNET LEONG","14","SK","$204,638.00","$0.00","SECURITIES AND EXCHANGE COMMISSION","SAN FRANCISCO","ACCOUNTING","2014"], 
["ZUKOWSKI,DAVID W","04","SK","$38,382.00","$0.00","SECURITIES AND EXCHANGE COMMISSION","BOSTON","ADMIN AND OFFICE SUPPORT STUDENT TRAINEE","2014"], 
...

所以你可以解析E本JSON的大熊猫与read_json：

import pandas as pd 

df = pd.read_json("http://www.fedsdatacenter.com/federal-pay-rates/output.php?n=&a=SECURITIES%20AND%20EXCHANGE%20COMMISSION&l=&o=&y=all") 
print df.head() 
               aaData iTotalDisplayRecords \ 
0 [ZUVER,SHAHEEN H, 14, SK, $170,960.00, $0.00, ...     19919 
1 [ZUR,MIA C., 14, SK, $164,875.00, $0.00, SECUR...     19919 
2 [ZUNDEL,JENNET LEONG, 14, SK, $204,638.00, $0....     19919 
3 [ZUKOWSKI,DAVID W, 04, SK, $38,382.00, $0.00, ...     19919 
4 [ZOU,FAN, 14, SK, $166,650.00, $0.00, SECURITI...     19919 

    iTotalRecords sEcho 
0  7072900  0 
1  7072900  0 
2  7072900  0 
3  7072900  0 
4  7072900  0

然后你从aaData列中获取新的数据框 - 使用列表理解：

df1 = pd.DataFrame([ x for x in df['aaData'] ])

设置列名：

df1.columns = ['NAME','GRADE','SCALE','SALARY','BONUS','AGENCY','LOCATION','POSITION','YEAR'] 

print df1.head() 
        NAME GRADE SCALE  SALARY BONUS \ 
0  ZUVER,SHAHEEN H 14 SK $170,960.00 $0.00 
1   ZUR,MIA C. 14 SK $164,875.00 $0.00 
2 ZUNDEL,JENNET LEONG 14 SK $204,638.00 $0.00 
3  ZUKOWSKI,DAVID W 04 SK $38,382.00 $0.00 
4    ZOU,FAN 14 SK $166,650.00 $0.00 

           AGENCY  LOCATION \ 
0 SECURITIES AND EXCHANGE COMMISSION  WASHINGTON 
1 SECURITIES AND EXCHANGE COMMISSION  WASHINGTON 
2 SECURITIES AND EXCHANGE COMMISSION SAN FRANCISCO 
3 SECURITIES AND EXCHANGE COMMISSION   BOSTON 
4 SECURITIES AND EXCHANGE COMMISSION  WASHINGTON 

            POSITION YEAR 
0       GENERAL ATTORNEY 2014 
1       GENERAL ATTORNEY 2014 
2        ACCOUNTING 2014 
3 ADMIN AND OFFICE SUPPORT STUDENT TRAINEE 2014 
4   INFORMATION TECHNOLOGY MANAGEMENT 2014

来源

2015-12-22 11:57:18 jezrael

这是伟大的，谢谢！还需要更好地掌握Javascript。 – user2559269

实际上，发现一个暗示抓取仍然有必要的进一步限制 - 而“iTotalDisplayRecords”：“19919”，由此产生的实际数据帧仅包含100行，对应于行选择元素的100行的最大选项允许。知道任何解决这个问题的方法？ – user2559269

你可以试试这个网址http://www.fedsdatacenter.com/federal-pay-rates/output.php？n =＆a = SECURITIES％20AND％20EXCHANGE％20COMMISSION＆l =＆o =＆y = all＆sEcho = 4＆iColumns = 9＆sColumns =＆iDisplayStart = 0＆iDisplayLength = 100000'并且可能尝试更改最后一个数字“100000” – jezrael

从刮脸的Javascript表格列表中创建数据框

回答

相关问题