同时使用beautifulsoup解析HTML中的表每隔一行开始与我如何停止美丽的汤从解析时跳过行?
<tr class="row_k">
而不是tr标签无类
样本HTML
<tr class="row_k">
<td><img src="some picture url" alt="Item A"></td>
<td><a href="some url"> Item A</a></td>
<td>14.8k</td>
<td><span class="drop">-555</span></td>
<td>
<img src="some picture url" alt="stuff" title="stuff">
</td>
<td>
<img src="some picture url" alt="Max llll">
</td>
</tr>
<tr>
<td><img src="some picture url" alt="Item B"></td>
<td><a href="some url"> Item B</a></td>
<td>64.9k</td>
<td><span class="rise">+165</span></td>
<td>
<img src="some picture url" alt="stuff" title="stuff">
</td>
<td>
<img src="some picture url" alt="max llll">
</td>
</tr>
<tr class="row_k">
<td><img src="some picture url" alt="Item C"></td>
<td><a href="some url"> Item C</a></td>
<td>4,000</td>
<td><span class="rise">+666</span></td>
<td>
<img src="some picture url" title="stuff">
</td>
<td>
<img src="some picture url" alt="Maximum lllle">
我想提取的文本是14.8k,64.9k和4,000
this1 = urllib2.urlopen('my url').read()
this_1 = BeautifulSoup(this1)
this_1a = StringIO.StringIO()
for row in this_1.findAll("tr", { "class" : "row_k" }):
for col in row.findAll(re.compile('td')):
this_1a.write(col.string if col.string else '')
Item_this1 = this_1a.getvalue()
我觉得这段代码写得不好,是否有更灵活的工具可以使用,比如XML解析器?有人可以建议。
仍然开放给任何仍然使用美丽的答案。
如果您包含更多的html,会更容易。我想你是说在表格的正文中有一个锚标记,并且表格中的下一列通过锚点选项卡具有所需的数据。 – PyNEwbie
我做了一个示例。我使用beautifulsoup来做到这一点,但问题是表中的所有其他列都有tr class =“row_k”,所以它忽略它,不会给我tr标签中的信息。我会更新我的问题。 – Pevo