我正在Perl/LWP中构建一个web爬行器。如何在遵循的WebCrawler这样一个ASP.NET网的链接:Perl Web爬虫如何跟随ASP.NET回发?
<a id="ctl00_MainContent_listResult_Top_LnkNextPage" href="javascript:__doPostBack('ctl00$MainContent$listResult$Top$LnkNextPage','')">Next</a>
我正在Perl/LWP中构建一个web爬行器。如何在遵循的WebCrawler这样一个ASP.NET网的链接:Perl Web爬虫如何跟随ASP.NET回发?
<a id="ctl00_MainContent_listResult_Top_LnkNextPage" href="javascript:__doPostBack('ctl00$MainContent$listResult$Top$LnkNextPage','')">Next</a>
貌似有一个WWW ::机械化子类,称为WWW::Scripter与javascript和ajax插件,应该是能够做到这一点。还没有尝试过这种特殊的方法。
另一种选择是WWW::Selenium,它可以很好地工作,但可能会对您有太多开销/设置。
它几乎是有道理的,有一个CPAN模块具体处理这种疾病:) – ysth 2009-06-15 07:43:48
使用WWW-Mechanize-Firefox,它可以检索/关注Firefox可以访问的任何链接。
您需要安装mozrepl插件到firefox,perl模块将连接到该插件并使用firefox打开链接。
http://metacpan.org/pod/WWW::Mechanize::Firefox
例子:http://metacpan.org/pod/WWW::Mechanize::Firefox::Examples
+1,因为不管我对它的保留意见是无法回答的,如果它实际上回答的,我想知道的太多 – 2009-06-14 22:31:50