1
我试图下载下列网站http://computerone.altervista.org的一些页面,只是为了测试下载...如何避免链接到使用wget
我的目标是只下载页面符合下列模式“*JavaScript*
”和“ *index*
“。
其实如果我尝试以下选项
wget \
-A "*Javascript*, *index*" \
--exclude-domains http://computerone.altervista.org/rss-articles/ \
-e robots=off \
--mirror -E -k -p -np -nc --convert-links \
--wait=5 -c \
http://computerone.altervista.org
它的工作原理指望它会尝试下载http://computerone.altervista.org/rss-articles/
过的事实。
我的问题是:
- 为什么它会尝试下载
http://computerone.altervista.org/rss-articles/
页? - 我应该如何避免它?我试过
--exclude-domains http://computerone.altervista.org/rss-articles/
选择,但它尝试下载它
PS:
展望源页面我得到:
<link rel="alternate" type="application/rss+xml" title="RSS 2.0" href="rss-articles/" />