从重命名的网页下载链接

我试图找到一种方法来自动从网页上下载所有链接，但我也想重命名它们。例如：从重命名的网页下载链接

<a href = fileName.txt> Name I want to have </a>

我希望能够得到一个名为'我想要的名字'的文件（我不担心扩展名）。

我知道我可以得到页面源代码，然后解析所有的链接，并手动下载它们，但我想知道是否有任何内置的工具。

lynx --dump | grep http:// | cut -d ' ' -f 4

将打印可以批量获取与wget的所有环节 - 但有没有办法重命名的飞行联系？

来源

2011-07-03 iliaden

我通过完全（用记事本+的内置转换）转换网页为Unicode在第一轮解决了这个问题

然后我写了使用的猫，awk和wget来获取所有的小shell脚本数据。

不幸的是，我无法自动化该过程，因为我没有找到任何工具可以将整个页面从KOI8-R转换为unicode。

来源

2011-07-03 02:13:09 iliaden

我怀疑这个开箱即用。我建议你用Python或类似语言编写脚本来下载页面，并加载源代码（尝试使用Beautiful Soup库进行容忍解析）。然后，遍历源代码来获取链接的属性和文本，然后下载带有所需名称的文件是一件简单的事情。除了美丽的汤（如果你需要能够解析潦草的HTML），所有你需要的是用Python构建的。

来源

2011-07-03 00:44:28

感谢您的建议使用什么语言/框架。另一个问题是整个页面是否采用非Unicode编码（KOI8-R），您知道Beatuful Soup是否支持各种编码？ – iliaden

如果你看看它的首页上的第一段几段，它说它尝试自动检测，如果失败，你可以指定一个源编码，并且它转换为UTF-8。 –

从重命名的网页下载链接

回答

相关问题