基本上,我想提取字符串“AAA”,“BBB”,“CCC”,从文本文件“DDD” ..提取字符串
...... (other text goes here).....
<TD align="left" class=texttd><font class='textfont'>AAA</font></TD>
..... (useless text here).....
<TD align="left" class=texttd><font class='textfont'>BBB</font></TD>
....(more text).....
<TD align="left" class=texttd><font class='textfont'>CCC</font></TD>
<TD align="left" class=texttd><font class='textfont'>DDD</font></TD>
......(more text).....
我想是这样,如果我做: -
数据= FOO( “file.txt的”)
我得到: -
data = ['AAA','BBB','CCC','DDD']
什么是最好的方法?我的文件并不大..
我想这样做,而不使用第三方库.. Bcos,我真的不想要HTML处理..我的目标只是提取这些字符串.. – 2010-03-17 17:42:42
@shadyabhi,不使用库是一个愚蠢的目标。 HTML解析器是正在尝试执行的任务(解析HTML)的正确工具,并提供了一种编写简单而简洁的函数的方法。 – 2010-03-17 17:46:27
@Dominic,lxml现在可能是一个更好的选择,因为它仍然在积极开发之中。 – 2010-03-17 17:46:51