对于下面的一段HTML代码捕获空值,我用beautifulsoup捕捉表信息:美丽的汤在一个表中
<table>
<tr>
<td><b>Code</b></td>
<td><b>Display</b></td>
</tr>
<tr>
<td>min</td>
<td>Minute</td><td/>
</tr>
<tr>
<td>happy </td>
<td>Hour</td><td/>
</tr>
<tr>
<td>daily </td>
<td>Day</td><td/>
</tr>
这是我的代码:
comments = [td.get_text() for td in table.findAll("td")]
Comments=[data.encode('utf-8') for data in comments]
正如你看到的,该表有两个标题:“代码和显示”和一些行中的值。我的代码的期望输出应该是[代码,显示,分,分,快乐,小时,日,日]
但这是输出:
['Code', 'Display', 'min', 'Minute', '', 'happy ',
'Hour', '', 'daily ', 'Day', '']
输出有“”在5日,第八和第十一个评论指数在本表中没有定义。我认为这可能是因为</td><td/>
。 如何更改代码以便在输出中不捕获u''?
@Noah,我的问题不是'你'。这是你在输出列表中。 '代码= [data.encode('utf-8')for data in comments]',这是输出:['Code','Display','min' ,'分钟','','快乐','小时','','每日','日',''],你能看到第5和第10个指数的额外产出吗? – Mary