2011-07-03 39 views
0

我试图找到一种方法来自动从网页上下载所有链接,但我也想重命名它们。例如:从重命名的网页下载链接

<a href = fileName.txt> Name I want to have </a> 

我希望能够得到一个名为'我想要的名字'的文件(我不担心扩展名)。

我知道我可以得到页面源代码,然后解析所有的链接,并手动下载它们,但我想知道是否有任何内置的工具。

lynx --dump | grep http:// | cut -d ' ' -f 4 

将打印可以批量获取与wget的所有环节 - 但有没有办法重命名的飞行联系?

回答

0

我通过完全(用记事本+的内置转换)转换网页为Unicode在第一轮解决了这个问题

然后我写了使用的猫,awk和wget来获取所有的小shell脚本数据。

不幸的是,我无法自动化该过程,因为我没有找到任何工具可以将整个页面从KOI8-R转换为unicode。

1

我怀疑这个开箱即用。我建议你用Python或类似语言编写脚本来下载页面,并加载源代码(尝试使用Beautiful Soup库进行容忍解析)。然后,遍历源代码来获取链接的属性和文本,然后下载带有所需名称的文件是一件简单的事情。除了美丽的汤(如果你需要能够解析潦草的HTML),所有你需要的是用Python构建的。

+0

感谢您的建议使用什么语言/框架。另一个问题是整个页面是否采用非Unicode编码(KOI8-R),您知道Beatuful Soup是否支持各种编码? – iliaden

+0

如果你看看它的首页上的第一段几段,它说它尝试自动检测,如果失败,你可以指定一个源编码,并且它转换为UTF-8。 –