我有一堆HTML,我每周从网站下载一次,需要抓取它的一些信息,不知道从哪里开始。python找到一个字符串&前后的所有内容
我有大约100个这样的文件重复,只想抓住2条线。
NUMBER2 ‑ ‑计算机
天 前 上 君 22, 11589文件/ 4,363 MB
<td width="242"><div align="left"><span class="style9">
<span class="style9"><img src="pic.pn" width="32" height="32" border="0" style="vertical-align:text-top;" />number2 ‑‑computer</span><br />
.....
<div align="left">License:<br />Backup:<br />Files:</div></td><td width="186" valign="top" nowrap><div align="left" nowrap>
<span class="black" nowrap><span class="black">Paid Unlimited</span>
<br />3 days ago on Jun 22, 12<br />11,589 files/4,363 MB</span></td>
<td width="92" valign="top"> </td></tr>
.....
</div></td>
[你尝试过什么?](http://whathaveyoutried.com) – millimoose
你想要一个HTML解析器 - 这种情况下,我会建议BeautifulSoup。 –
@millimoose:显然他到目前为止还没有尝试过任何东西,比如“不确定从哪里开始” –