我是一名编程初学者,我的一位朋友告诉我使用BeautifulSoup而不是htmlparser。遇到一些问题后,我得到了一个提示,使用lxml而不是BeaytifulSoup,因为它的性能提高了10倍。用lxml解析HTML数据
我希望有人能给我一个提示如何刮我正在寻找的文本。
我要的是找到以下行和数据表:
<tr>
<td><a href="website1.com">website1</a></td>
<td>info1</td>
<td>info2</td>
<td><a href="spam1.com">spam1</a></td>
</tr>
<tr>
<td><a href="website2.com">website2</a></td>
<td>info1</td>
<td>info2</td>
<td><a href="spam2.com">spam2</a></td>
</tr>
如何用刮信息1和2的网站,没有垃圾邮件,与lxml
,并得到下面的结果?
[['url' 'info1', 'info2'], ['url', 'info1', 'info2']]
你只需用几行代码就可以让我的一天有一天。并感谢您的解释。其实所有的答案都很好。我正在学习有关xpath的知识,以获得它与萤火虫。但是他更容易找到第一个表格行并处理其中的数据。再次感谢你们,快乐的圣诞节:) – Retrace 2011-12-26 14:20:34