2013-07-17 75 views
2

我想提取一个TWiki(谁是我的URL)的HTML代码。什么是最好的方式呢?使用Perl从url中提取HTML

此外,一旦我提取HTML代码,我需要在托管在Google协作平台上的网站中提取它。那可能吗?

+0

谢谢。 LWP :: Simple工作正常。但是有没有人会对我的第二个问题的答案有任何线索。我似乎无法访问我的网站。 – user2590739

回答

1

听起来像你需要CPAN HTML::Parser模块。

use HTML::Parser(); 

# Create parser object 
$p = HTML::Parser->new(api_version => 3, 
         start_h => [\&start, "tagname, attr"], 
         end_h => [\&end, "tagname"], 
         marked_sections => 1, 
         ); 
# Parse directly from file 
$p->parse_file("foo.html"); 
+0

我不推荐使用HTML :: Parser,该模块需要一些烦人的代码来实现简单的事情。更好和声明:[Web :: Query](http://p3rl.org/Web::Query)(CSS选择器),[HTML :: TreeBuilder :: XPath](http://p3rl.org/HTML :: TreeBuilder :: XPath)(XPath) – daxim

2

一个非常简单的方式来获得一个HTML页面是LWP::Simple模块。如果您必须执行更复杂的导航流程,请使用WWW::Mechanize。然后,如果您需要解析HTML代码,那么@ brian解决方案就很好。