2017-09-14 60 views
1

我尝试从我的base_url页面(在图片中标记为蓝色圆圈)刮掉特定的行。页面源代码在另一张图片中。用BeautifulSoup刮去特定的表格行

我的目标是让那些< td>标签,但不知何故,我不能让我的代码与他们。

我的代码:

from bs4 import BeautifulSoup 
from selenium import webdriver 
import requests, csv, re, pandas, numpy 

base_url = "http://www.basket.fi/sarjat/ottelu/?game_id=3502579&season_id=93783&league_id=4+"+"#mbt:2-400$t&0=1" 
browser = webdriver.PhantomJS() 
browser.get(base_url) 
table = BeautifulSoup(browser.page_source, 'lxml') 

for data in table.find_all("tr",{"class":"row2"}): 
    print(data.find("td").text) 

enter image description here

enter image description here

+0

什么问题,请解释一下? –

+0

@TarunLalwani我的代码没有得到我想要的< td >标签。 –

+0

可能获取pastebin或原始网址中的HTML吗? –

回答

1

通常你可以选择通过属性的HTML元素,但此文档的“类”属性是不是非常有帮助,因为有许多其他'tr'标签在同一个班级。

在这种情况下,您可以使用列表索引来选择标签。

for td in table.find_all("tr", {"class":"row2"})[25].find_all('td')[1:]: 
    print(td.get_text(strip=True)) 
+0

非常感谢! :) –