使用Perl从url中提取HTML

我想提取一个TWiki（谁是我的URL）的HTML代码。什么是最好的方式呢？使用Perl从url中提取HTML

此外，一旦我提取HTML代码，我需要在托管在Google协作平台上的网站中提取它。那可能吗？

2013-07-17 user2590739

谢谢。 LWP :: Simple工作正常。但是有没有人会对我的第二个问题的答案有任何线索。我似乎无法访问我的网站。 – user2590739

听起来像你需要CPAN HTML::Parser模块。

use HTML::Parser(); 

# Create parser object 
$p = HTML::Parser->new(api_version => 3, 
         start_h => [\&start, "tagname, attr"], 
         end_h => [\&end, "tagname"], 
         marked_sections => 1, 
         ); 
# Parse directly from file 
$p->parse_file("foo.html");

来源

2013-07-17 09:38:26

我不推荐使用HTML :: Parser，该模块需要一些烦人的代码来实现简单的事情。更好和声明：[Web :: Query]（http://p3rl.org/Web::Query）（CSS选择器），[HTML :: TreeBuilder :: XPath]（http://p3rl.org/HTML :: TreeBuilder :: XPath）（XPath） – daxim

一个非常简单的方式来获得一个HTML页面是LWP::Simple模块。如果您必须执行更复杂的导航流程，请使用WWW::Mechanize。然后，如果您需要解析HTML代码，那么@ brian解决方案就很好。

来源

2013-07-17 09:40:42

使用Perl从url中提取HTML

回答

相关问题