我试图找到一种方法来自动从网页上下载所有链接,但我也想重命名它们。例如:从重命名的网页下载链接
<a href = fileName.txt> Name I want to have </a>
我希望能够得到一个名为'我想要的名字'的文件(我不担心扩展名)。
我知道我可以得到页面源代码,然后解析所有的链接,并手动下载它们,但我想知道是否有任何内置的工具。
lynx --dump | grep http:// | cut -d ' ' -f 4
将打印可以批量获取与wget的所有环节 - 但有没有办法重命名的飞行联系?
感谢您的建议使用什么语言/框架。另一个问题是整个页面是否采用非Unicode编码(KOI8-R),您知道Beatuful Soup是否支持各种编码? – iliaden
如果你看看它的首页上的第一段几段,它说它尝试自动检测,如果失败,你可以指定一个源编码,并且它转换为UTF-8。 –