2016-03-06 30 views
0

我正在努力从网站上抓取网址。从网站我想刮HTML代码是:在Python中获取HTML中的每个第二个网址

<tr> 
     <td> 
      <span> 

    <table class="search-result-ad-row" cellspacing="3" border="0"> 
    <tbody> 
     <tr> 
      <td class="picture" rowspan="2"><a title="3.izbový byt v starom meste na ulici Kpt. Nálepku" href="inzerat/RE0005055-16-000281/3-izbovy-byt-v-starom-meste-na-ulici-kpt-nalepku"><img src="/data/189/RE0005055/ads/195/RE0005055-16-000281/img/thum/37587134.jpeg" alt=""/></a> 
      </td> 
      <td class="title" colspan="2"><a title="3.izbový byt v starom meste na ulici Kpt. Nálepku" href="inzerat/RE0005055-16-000281/3-izbovy-byt-v-starom-meste-na-ulici-kpt-nalepku"><h2 style="font-size: inherit;">3.izbový byt v starom meste na ulici Kpt. Nálepku</h2></a> 
       <span></span> 
      </td> 
     </tr> 
     <tr> 

我想利用这个Python代码来获取href

br = mechanize.Browser() 
br.open("http://www.reality.sk/") 
br.select_form(nr=0) 
br["tabs:scrn243:scrn115:errorTooltip.cityName:cityName"]="poprad" 
br.submit() 

def hello(): 
    soup = BeautifulSoup(br.response().read()) 
    for link in soup.findAll('a'): 
     link2 = link.get('href') 
     if "inzerat/" in link2: 
      print 'http://www.reality.sk/' + link.get('href') 

但问题是,我得到2个结果每个URL(因为有2 href属性)。我尝试使用table标签,td标签和class属性(“图片”或“标题”)或甚至使用rowspan(= 2)进行刮擦。但是我没有得到理想的结果。我不知道如何使代码工作。

+0

有一些边缘情况或其他特定原因为什么你不能仅仅使用模数来'继续'循环每个其他*迭代? – Tersosauros

+0

看来你得到了同样的链接两次。难道你不能仅仅通过一个简单的'set'操作来过滤掉? (或者像@Tersosauros建议的那样,通过'soup.findAll('a')[:: 2]''等方式获得每一次迭代的链接) –

+0

@Tosaosauros ...说实话,我在编程方面不是很有经验,不要考虑每一个迭代循环。但是我尝试Gustavo Bezerra写的 - soup.findAll('a')[:: 2],它的工作原理,所以必须感谢你。 – koaxko

回答

1

我想你在查找class选择器时遇到了问题。你也可以连接通过查找返回的标签 - 请看看,如果这个解决方案可以帮助(我不是100%肯定,如果这就是你想要达到的目标):

soup.find_all('table', class_='search-result-ad-row') 
for ad_table in soup.find_all('table', class_='search-result-ad-row'): 
    print ad_table.find(class_='picture').find('a').attrs['href'] 
相关问题