所以这不是一个问题,但更像是自动化的东西...
我建立了一个网站,并不得不复制从以前的网页负载的内容。我通过将内容从旧页面复制粘贴到使用wordpress制作的新页面来完成。从网页获取所有链接和图像的最快方法?
内容中的所有链接和图像仍指向旧页面。所以我想找到一些类似于webscraping工具,它将分析选定链接列表,然后输出将所有链接指向我的网页之外,并列出我必须下载的所有图像
所以这不是一个问题,但更像是自动化的东西...
我建立了一个网站,并不得不复制从以前的网页负载的内容。我通过将内容从旧页面复制粘贴到使用wordpress制作的新页面来完成。从网页获取所有链接和图像的最快方法?
内容中的所有链接和图像仍指向旧页面。所以我想找到一些类似于webscraping工具,它将分析选定链接列表,然后输出将所有链接指向我的网页之外,并列出我必须下载的所有图像
考虑到您的旧新网站将具有相同的URL结构,这里是一个小书签,您可以将其作为书签保存到工具栏中。
为了方便您的工作,打开一个旧网站页面,只需点击您已保存的书签按钮(代码如下)。此代码将取代旧网站到新网站的链接。图像将被类似处理。接下来,您可以复制更新后的内容并将其粘贴到新网站的编辑器中(wordpress管理员)。
在开发者控制台(F12键)上,您将看到所有必须下载的图像列表。
javascript:(function(){
var jqscript = document.createElement('script');
jqscript.onload = function() {
// treat the <a> tags
jQuery('#my-content-container').find('a[href^="http://my-old-website.com"]').each(function(i, anchor) {
jQuery(anchor).attr('href', jQuery(anchor).attr('href').replace('http://my-old-website.com', 'http://my-new-website.com/new-directory'));
});
// treat the <img> tags, and make a list of images to download
var images_to_download = [];
jQuery('#my-content-container').find('img').each(function(i, image) {
images_to_download.push(jQuery(image).attr('src'));
jQuery(image).attr('src', jQuery(image).attr('src').replace('http://my-old-website.com', 'http://my-new-website.com/new-directory'));
});
// output a list of images to the developer console
console.log(images_to_download);
};
jqscript.src = "//ajax.googleapis.com/ajax/libs/jquery/1.12.4/jquery.min.js";
}());
P.S.要保存此小书签代码,请右键单击浏览器的工具栏并创建一个新书签,然后输入上述代码作为位置/ URL。
这只是您应该考虑的选项:您可以使用绝对路径而不是相对路径,这将帮助您重新使用代码,而无需重新映射其中的每个链接。
Relatif路径:
<a href="/pictures/tahiti-vacation/tahiti.html">Read about my Tahiti vacation.</a>
绝对路径:
<a href="http://www.website.com/pictures/tahiti.html">Read about my Tahiti vacation.</a>
你可以简单地完成所有的链接绝对,所以它不会取决于你在页面上! –