使用Linux wget标签来抓取网站

有一些网站 - www.elections.am/votersreg ，我想知道如何在本网站使用linux wget标签获取整个信息？感谢使用Linux wget标签来抓取网站

2012-10-03 asdf

什么是“标签”？ – 2012-10-03 21:00:15

也许这是指一个“命令”的奇怪方式？ – duskwuff

如果你想做一些很酷的东西使用perl和嵌入的LWP :: Simple，你可以加载网站，如果你需要更多的智能perl也包含一些www库来输入内容并提交它。 http://search.cpan.org/~gaas/libwww-perl-6.04/lib/LWP/Simple.pm –

可以使用wget -r或安装一个名为“的HTTrack”程序，并用它来的URL镜像到一个文件夹

来源

2012-10-04 07:05:12 hackwa

试试webhttrack。 –

另一个答案建议“的wget -r”这可能为你工作。但是，为了最好地“抓住本网站的所有信息”，如你的问题所述，我认为'wget --mirror'或者'wget --mirror --convert-links'将是更强大的解决方案。 -r选项默认为递归的5个级别，其中--mirror提供无限级别的递归。 --convert-links选项将根据需要转换下载文档中的链接，以使其适合本地浏览，如果这是您的目标。

我会在这里的'无限递归'方面小心。这可能会失控，因此您可能需要监视下载进度。您还可以使用--level = depth选项显式定义递归深度。

来源

2017-01-07 06:51:55 airhuff

使用Linux wget标签来抓取网站

回答

相关问题