2012-10-03 26 views
0

有一些网站 - www.elections.am/votersreg ,我想知道如何在本网站使用linux wget标签获取整个信息? 感谢使用Linux wget标签来抓取网站

+0

什么是“标签”? – 2012-10-03 21:00:15

+0

也许这是指一个“命令”的奇怪方式? – duskwuff

+0

如果你想做一些很酷的东西使用perl和嵌入的LWP :: Simple,你可以加载网站,如果你需要更多的智能perl也包含一些www库来输入内容并提交它。 http://search.cpan.org/~gaas/libwww-perl-6.04/lib/LWP/Simple.pm –

回答

1

可以使用wget -r或安装一个名为“的HTTrack”程序,并用它来的URL镜像到一个文件夹

+0

试试webhttrack。 –

0

另一个答案建议“的wget -r”这可能为你工作。但是,为了最好地“抓住本网站的所有信息”,如你的问题所述,我认为'wget --mirror'或者'wget --mirror --convert-links'将是更强大的解决方案。 -r选项默认为递归的5个级别,其中--mirror提供无限级别的递归。 --convert-links选项将根据需要转换下载文档中的链接,以使其适合本地浏览,如果这是您的目标。

我会在这里的'无限递归'方面小心。这可能会失控,因此您可能需要监视下载进度。您还可以使用--level = depth选项显式定义递归深度。