我正在解析HTML获取匹配特定网址(我们称之为“目标网址”)的所有href
,然后获取锚文本。我试过LinkExtractor,TokenParser,Mechanize,TreeBuilder模块。对于以下HTML:如何提取包含在Perl中的锚中的HTML img标签?
<a href="target_url">
<img src=somepath/nw.gf alt="Open this result in new window">
</a>
所有这些都将“在新窗口中打开此结果”作为定位文本。 理想情况下,我希望看到空白值或返回的“图像”字符串,以便我知道没有锚文本,但href
仍与目标网址匹配(在此情况下为http://www.yahoo.com) 。有没有办法使用其他模块或Perl正则表达式来获得所需的结果?
谢谢,
我编辑了你的帖子,以显示我认为你想说的话。请显示您尝试解析的确切HTML。除了将其纳入问题之外,不要以任何其他方式进行编辑。 – 2009-12-31 08:32:38