我想从一个网站链接提取信息:提取文本
http://www.website.com
有出现几次的字符串:“字符串截取”,但我想捕捉出现的第一次。这将是以下结构内:
<td width="10%" bgcolor="#FFFFFF"><font class="bodytext9">1-Jun-2013</font></td>
<td width="4%" bgcolor="#FFFFFF" align=center><font class="bodytext9">Sat</font></td>
<td width="4%" bgcolor="#FFFFFF" align="center"><font class="bodytext9">TIME</font></td>
<td width="15%" bgcolor="#FFFFFF" align="center"><a class="black_9" href="link1">Some Text here</a></td>
<td width="5%" bgcolor="#FFFFFF" align="center"><font class="bodytext9"><img src="img/colors/pink.gif"></font></td>
<td width="5%" bgcolor="#FFFFFF" align="center"></td>
<td width="5%" bgcolor="#FFFFFF" align="center"><font class="bodytext9">Another Text</font></td>
<td width="5%" bgcolor="#FFFFFF" align="center"></td>
<td width="5%" bgcolor="#FFFFFF" align="center"><font class="bodytext9"><img src="img/colors/white.gif"></font></td>
<td width="15%" bgcolor="#FFFFFF" align="center"><a class="black_9" href="link2">Here is also Text</a></td>
<td width="15%" bgcolor="#FFFFFF" align="center"><a href="LINKtoWeb" class=list><u>STRING TO CAPTURE</u></a></td>
<td width="4%" bgcolor="#FFFFFF" align="center"><a target="_new" href="AnotherLink"><img src="img/img2.gif" border="0"></a></td>
</tr>
这是一个固定格式,其中间是12行开始和所有其他标签;我想提取每行中的文本,例如。
1-Jun-2013
Sat
TIME
Some Text here
...
STRING TO CAPTURE
,我也想提取在行链接含有“STRING捕捉到”,这就是:
LINKtoWeb
在我看来,蟒蛇可能是非常实用的做这个任务,但我也太新的Python到它的工作,希望这里的Python专家可以告诉我如何。 我不知道从哪里开始,四处搜寻,发现这可能是解决方案:
use YAML;
my $data = Load(http://www.website.com);
say $data->{"<tr>"}->{"<td>"}->{"STRING TO CAPTURE"};
但我不知道如何处理这12行中的所有文本?
使用像BeautifulSoup或Scrapy – Serial
BeautifulSoup或LXML模块可以做的工作 – kevinamadeus
你有代码的Perl – perreal