我有一个<td>
,并希望从中提取文本,这是我需要的只是文本汤姆·克鲁斯,辛普森,比尔·克林顿这是使用一个Python正每个<td>
标签内表达。提取文本
<td class="clic-cul manga" template=".woxColumnyd" maz="/ajax/blac-woxm/xom-line/expanded/2002-2012/11-05-2022/01/fam.json">Tom Cruz</td>
<td class="clic-cul manga" template=".woxColumnx" mac="/ajax/blac-woxm/xom-line/expanded/2002-2012/11-05-2022/01/fam.json">Home Simpson</td>
<td class="clic-cul manga" template=".woxColumnz" max="/ajax/blac-woxm/xom-line/expanded/2002-2012/11-05-2022/01/fam.json">Bill Clinton</td>
任何想法?
更新1.如果HTML解析器是标准方式,我应该怎么做呢?
[不解析与正则表达式的HTML!(http://stackoverflow.com/a/1732454/418066) – Biffen
的标准方法是使用HTML解析器和不是一个正则表达式 – polku