2012-12-05 68 views
1

我试图下载下列网站http://computerone.altervista.org的一些页面,只是为了测试下载...如何避免链接到使用wget

我的目标是只下载页面符合下列模式“*JavaScript*”和“ *index*“。

其实如果我尝试以下选项

wget \ 
-A "*Javascript*, *index*" \ 
--exclude-domains http://computerone.altervista.org/rss-articles/ \ 
-e robots=off \ 
--mirror -E -k -p -np -nc --convert-links \ 
--wait=5 -c \ 
http://computerone.altervista.org 

它的工作原理指望它会尝试下载http://computerone.altervista.org/rss-articles/过的事实。

我的问题是:

  1. 为什么它会尝试下载http://computerone.altervista.org/rss-articles/页?
  2. 我应该如何避免它?我试过--exclude-domains http://computerone.altervista.org/rss-articles/选择,但它尝试下载它

PS:
展望源页面我得到:

<link rel="alternate" type="application/rss+xml" title="RSS 2.0" href="rss-articles/" /> 

回答

2

wget -p下载所有网页先决条件:

人的wget :

为了完成这个主题,值得了解Wget的012思想外部文档链接是<A>标签, <AREA>标签或以外的<LINK>标签中指定的任何URL。

排除rss-articles使用-X--exclude-directories

wget -A "*Javascript*, *index*" -X "rss-articles" -e robots=off --mirror -E -k -p -np -nc -c http://computerone.altervista.org