-2
我有一个带有三个表格的html文件。但我只想提取三个表中的一个。我该怎么做呢?使用perl从多表html文件中提取特定表格
我有一个带有三个表格的html文件。但我只想提取三个表中的一个。我该怎么做呢?使用perl从多表html文件中提取特定表格
提取HTML文档部分的好模块是HTML::Query
。
它提供了一个类似jQuery的界面,用于选择要提取的文档的哪一部分。
您可以使用诸如众所周知Perl
模块做到这一点:
LWP
WWW::Mechanize
HTML::TreeBuilder
HTML::TreeBuilder::XPath
最后一个Perl模块,是真正有用的,你可以使用Xpath
这样的表达式:
//table[0]/tr[3]/td[2]/text()
通过实例,从第一table
打印第二td
元素的文本中的第三tr
。
[Mojo :: DOM](http://p3rl.org/Mojo::DOM)提供了一整套CSS3选择器,包括['n-type-type'](http://mojolicio.us/perldoc/Mojo/DOM/CSS#Enthoftypen),它似乎HTML :: Query缺乏 –