2017-06-10 47 views
1

所以这不是一个问题,但更像是自动化的东西...
我建立了一个网站,并不得不复制从以前的网页负载的内容。我通过将内容从旧页面复制粘贴到使用wordpress制作的新页面来完成。从网页获取所有链接和图像的最快方法?

内容中的所有链接和图像仍指向旧页面。所以我想找到一些类似于webscraping工具,它将分析选定链接列表,然后输出将所有链接指向我的网页之外,并列出我必须下载的所有图像

+0

你可以简单地完成所有的链接绝对,所以它不会取决于你在页面上! –

回答

0

考虑到您的旧新网站将具有相同的URL结构,这里是一个小书签,您可以将其作为书签保存到工具栏中。

为了方便您的工作,打开一个旧网站页面,只需点击您已保存的书签按钮(代码如下)。此代码将取代旧网站到新网站的链接。图像将被类似处理。接下来,您可以复制更新后的内容并将其粘贴到新网站的编辑器中(wordpress管理员)。

在开发者控制台(F12键)上,您将看到所有必须下载的图像列表。

javascript:(function(){ 
    var jqscript = document.createElement('script'); 
    jqscript.onload = function() { 
     // treat the <a> tags 
     jQuery('#my-content-container').find('a[href^="http://my-old-website.com"]').each(function(i, anchor) { 
      jQuery(anchor).attr('href', jQuery(anchor).attr('href').replace('http://my-old-website.com', 'http://my-new-website.com/new-directory')); 
     }); 
     // treat the <img> tags, and make a list of images to download 
     var images_to_download = []; 
     jQuery('#my-content-container').find('img').each(function(i, image) { 
      images_to_download.push(jQuery(image).attr('src')); 
      jQuery(image).attr('src', jQuery(image).attr('src').replace('http://my-old-website.com', 'http://my-new-website.com/new-directory')); 
     }); 
     // output a list of images to the developer console 
     console.log(images_to_download); 
    }; 
    jqscript.src = "//ajax.googleapis.com/ajax/libs/jquery/1.12.4/jquery.min.js"; 
}()); 

P.S.要保存此小书签代码,请右键单击浏览器的工具栏并创建一个新书签,然后输入上述代码作为位置/ URL。

0

这只是您应该考虑的选项:您可以使用绝对路径而不是相对路径,这将帮助您重新使用代码,而无需重新映射其中的每个链接。

Relatif路径:

<a href="/pictures/tahiti-vacation/tahiti.html">Read about my Tahiti vacation.</a> 

绝对路径:

<a href="http://www.website.com/pictures/tahiti.html">Read about my Tahiti vacation.</a>