Google已经开始抓取我的网站,但是来自临时域(beta.mydomain而不仅仅是mydomain),而且我只希望他抓取我的一些网页。因此,我想停止抓取并只让他们抓取我在网站地图中指定的网页。我怎样才能做到这一点? (我知道如何添加一个站点地图,但我怎样才能阻止他们当前的抓取,并要求他们只抓取站点地图)停止Google抓取我的网站
更新:如果我杀死了子域beta.mydomain - 会是“罚款”他们还是会继续浏览所有被杀的页面并且“不喜欢”他们?我可以在每个页面的标题中指定它吗?
Google已经开始抓取我的网站,但是来自临时域(beta.mydomain而不仅仅是mydomain),而且我只希望他抓取我的一些网页。因此,我想停止抓取并只让他们抓取我在网站地图中指定的网页。我怎样才能做到这一点? (我知道如何添加一个站点地图,但我怎样才能阻止他们当前的抓取,并要求他们只抓取站点地图)停止Google抓取我的网站
更新:如果我杀死了子域beta.mydomain - 会是“罚款”他们还是会继续浏览所有被杀的页面并且“不喜欢”他们?我可以在每个页面的标题中指定它吗?
您可以从robots.txt文件开始。
我想你已经看过网站管理员工具和网站地图,从你说什么?请注意,虽然网站地图会帮助告诉谷歌要抓取的内容,但告诉他们哪些内容无法抓取并不会很好。
为此,您需要使用robots.txt文件来阻止某些页面/文件夹。
将使用robots.txt阻止所有页面并为网站地图提供特定页面吗? – Noam
使用robots.txt
,参见this site。
在您的站点的根文件夹中创建一个名为'robots.txt'的单个文本文件。里面...
User-agent: *
Disallow: /thisfolder/
Disallow: /foo.html
Disallow: /andthisfoldertoo/
Disallow: /andthisfile.html
我把它用于项目文件。事实上,正如我写这篇文章,我想我会改变我的项目的工作方式,并始终把他们叫做/项目/ PROJECT1 /这样一个行会做一个子目录...
Disallow: /projects/
AND我也为我的图像文件添加一行。我不喜欢我的图片在网上...
Disallow: /imgs/
看看使用robots.txt文件。只需谷歌,并阅读有关它。 – dehlenbe