2013-03-30 61 views
3

我想要的网页得到了windows-1251字符集编码。 有没有办法不只是简单地下载这个页面,而是自动..呃..将文本内部转换为uft-8?使用wget改变文本编码下载文件

我试图添加额外的参数给wget像

--header='Accept-Charset: utf-8' 

,但没有运气。

+0

您可以举个例子吗? – NoBugs

+0

当然,http://www.popmech.ru/article/12858-kosmicheskiy-grom/ – Astro

回答

3

您可以使用

iconv -f ISO-8859-1 -t UTF-8 ./index.html > ./utf.html 

的编码转换。请参阅https://wiki.archlinux.org/index.php/Convert_a_text_file%27s_encoding

+0

可能的解决方案..但有没有办法用wget解决它? – Astro

+2

也许不是直接的,但是'wget -O ./tmp.htm http://www.popmech.ru/article/12858-kosmicheskiy-grom/ && iconv -f ISO-8859-1 -t UTF-8怎么样? /tmp.htm> ./output.htm' – NoBugs

+0

是的,这是行得通的(只有它应该是-f = windows-1251),但是这种方法的麻烦是我们应该在运行这个命令之前知道字符集。 – Astro