2013-07-23 46 views
0

这是一个关于如何使用BeautifulSoup解析python2.7中的html表格的上下文特定问题。如何使用BeautifulSoup解析表格?

我想提取html表here并将它放在tab-delim csv中,并试图与BeautifulSoup一起玩。

代码方面:

proxies = { 
    "http://": "198.204.231.235:3128", 
} 
site = "http://sloanconsortium.org/onlineprogram_listing?page=11&Institution=&field_op_delevery_mode_value_many_to_one[0]=100%25%20online" 

r = requests.get(site, proxies=proxies) 
print 'r: ', r 
html_source = r.text 
print 'src: ', html_source 
soup = BeautifulSoup(html_source) 

为什么没有这个代码获得第4行?

soup.find('table','views-table cols-6').tr[4] 

如何打印出第一行(不是标题行)中的所有元素?

回答

2

欧凯,有人也许能够给你一个衬垫,但下面应该让你开始

table = soup.find('table', class_='views-table cols-6')                                                       
for row in table.find_all('tr'):                                                            
    row_text = list()                                                               
    for item in row.find_all('td'):                                                            
     text = item.text.strip()                                                            
     row_text.append(text.encode('utf8'))                                                         
    print row_text 

我相信你的TR [4]被认为是一个属性,而不是一个索引,你假设。