2010-10-05 25 views
0

当使用wget创建我的网站的静态副本但是有几个元素需要通过JavaScript拉入的外部资源。脚本的模式应该相当稳定,并且不会动态创建URL。我需要提取的网址如下所示:使用grep捕获JavaScript链接

onclick="return ns.homepage.load({e:this, src:'https://mysub.mydomain.tld/somedir/content/123456789.html'})" 

我想将这些url的列表输出到本地文件,以便我也可以将它们wget。

回答

0

使用perl + HTML :: TreeBuilder来拉你的端代码,然后解析它。

你可能需要做一些正则表达式的工作,即这个模块可能只会让你咕咕'onclick()'事件 - 但它不应该太糟糕了,以获得其余的。

+0

这绝对让我走在正确的轨道上。谢谢 – David 2010-12-21 17:42:15