2012-10-23 71 views

回答

0

提取HTML文档部分的好模块是HTML::Query

它提供了一个类似jQuery的界面,用于选择要提取的文档的哪一部分。

+0

[Mojo :: DOM](http://p3rl.org/Mojo::DOM)提供了一整套CSS3选择器,包括['n-type-type'](http://mojolicio.us/perldoc/Mojo/DOM/CSS#Enthoftypen),它似乎HTML :: Query缺乏 –

1

您可以使用诸如众所周知Perl模块做到这一点:

  • LWP
  • WWW::Mechanize
  • HTML::TreeBuilder
  • HTML::TreeBuilder::XPath

全部在http://search.cpan.org

最后一个Perl模块,是真正有用的,你可以使用Xpath这样的表达式:

//table[0]/tr[3]/td[2]/text() 

通过实例,从第一table打印第二td元素的文本中的第三tr

相关问题