相对较新,在这里BS4问题刮的所有行数据与美丽的汤
我有以下的HTML(截断简洁和网址的伪):
<tbody>
<tr>
<th >Part1</th>
<td>
<a href="http://somewebpage.com">87</a>
</td>
<td>
<a href="http://somewebpage.com">7</a>
</td>
<th>Part2</th>
<td>
<a href="http://somewebpage.com"">68</a>
</td>........
使用下列内容:
`soup=BeautifulSoup(page['content'], "html.parser")
table = soup.find("table")
table_data = [[cell.text for cell in row("td")]
for row in table("tr")]
pprint(table_data) `
table_data是这样的:
[[],
[u'87', u'7'],
[u'68'],
如何让'Part1'和'Part2'出现在同一个列表中?
遗憾的麻烦;-)
预期输出:
[[],
[u'Part1',u'87', u'7'],
[u'Part2', u'68'],
请在您的问题上使用[编辑](https://stackoverflow.com/posts/45037330/edit)链接添加预期输出 – styvane
使用此行:'row([“td”, “th”])' –
谢谢,但是我正在寻找下面的输出(如果我第一次加入,会有所帮助,对不起) –