3
A
回答
5
HTML::SimpleLinkExtor比HTML::LinkExtor有点简单。你可以在我的webreaper tool上看看我的一半的尝试,它有一些你可能需要的代码。
2
您可能会发现使用HTML::LinkExtor。
5
在Perl中检索网站的经典方法是使用WWW::Mechanize,它具有链接方法,该方法返回页面中所有链接的列表。您可以抓取页面,从中获取链接,然后使用follow_link()或get()方法获取链接的页面。
1
另一种方法是使用HTML::TreeBuilder解析页面中的HTML。它返回一个对象树,您可以使用它来抓取页面中的所有链接,并且可以做更多的事情,例如根据您指定的正则表达式模式查找链接。查看HTML :: Element的文档以查看更多内容。
要查找所有在一个页面的链接:
use HTML::TreeBuilder;
use LWP::Simple;
my $url = 'http://www.example.com/';
my $html = HTML::TreeBuilder->new_from_content(get($url));
my @links = $html->look_down('_tag' => 'a');
我相信LWP ::简单HTML :: TreeBuilder作为都包含在Ubuntu的为好。
相关问题
- 1. 从模块获取页面中所有模块的引用DNN
- 2. 取消网站中的所有页面?
- 3. 获取一个网站上所有的XML页面的列表
- 4. 如何获取特定网站中的所有页面链接?
- 5. 获取网站的所有页面,包括HTML,ASPX等在C#
- 6. 获取网站集中的所有网站而没有获取所有列表?
- 7. 网站的所有页面闪烁
- 8. 如何获取所有可用的perl模块列表
- 9. 所有页面的Opencart模块
- 10. 如何抓取网站以获取所有设置的cookie和页面设置?
- 11. 获取所有页面上
- 12. 获取所有页面API
- 13. 如何使用perl获取网页中的所有链接?
- 14. “所有网站内容”权限页面
- 15. 网站Perl脚本失败,json模块
- 16. Clojure从网站获取html页面
- 17. 网站页面内的网站页面
- 18. 获取页面块
- 19. 如何抓取我内部网站上的所有页面?
- 20. 如何抓取网站的所有页面
- 21. 如何获取网页的网站名称和页面标题
- 22. 从网页获取所有HTTP网址
- 23. 如何使用Ruby on Rails获取特定网站的所有页面
- 24. 使用cURL获取网站中的所有链接(不仅是页面)
- 25. 通过PowerShell为SharePoint网站上的每个页面获取所有webpart属性
- 26. 使用php从网站/ html页面获取所有可翻译的文本
- 27. 善变忽略Drupal的多站点网站/所有/模块
- 28. 的Perl引用获取网站
- 29. Perl网:: Telnet模块
- 30. 从网站获取所有用户
谢谢,我已经知道该模块,但它太多(?)的开销,只能用于此功能我猜 – snoofkin 2010-09-07 04:41:18