2016-11-27 71 views
0

我通过wget在Windows下载一个HTML页面及其文件。
wget -m -k -p -np --html-extensionwget特殊字符内部URL

这个html有很多特殊字符的url。
(例如:<a href="chp1_資料庫概論.doc" target="_blank">Chp1</a>

有2个问题:

  1. 内的HTML,网址(包括特殊字符的)变得有些乱语:

期望:

<a href="chp1_資料庫概論.doc" target="_blank">Chp1</a>

实际:

<a href="http://acupun.site/lecture/database/chp1_%B8%EA%AE%C6%AEw%B7%A7%BD%D7.doc" target="_blank">Chp1</a>

  • 文件名是随机的话。
  • 可以通过添加--restrict-file-names=nocontrol来解决seco​​ned问题。

    如何解决第一个问题?这是Windows版本的问题?

    显然,里面的HTML,将其转换网址有特殊字符的东西......

    回答

    0

    你的问题来自于一个事实,即Windows仍然会对待你的UTF8字符作为Latin1的字符,甚至与--restrict-file-names=nocontrol命令行参数。 GNU的网站记录了这个错误here,对于Windows用户至今仍然是一个问题。然而,你的命令可以在Linux环境中工作。