2011-08-01 80 views
0

Google已经开始抓取我的网站,但是来自临时域(beta.mydomain而不仅仅是mydomain),而且我只希望他抓取我的一些网页。因此,我想停止抓取并只让他们抓取我在网站地图中指定的网页。我怎样才能做到这一点? (我知道如何添加一个站点地图,但我怎样才能阻止他们当前的抓取,并要求他们只抓取站点地图)停止Google抓取我的网站

更新:如果我杀死了子域beta.mydomain - 会是“罚款”他们还是会继续浏览所有被杀的页面并且“不喜欢”他们?我可以在每个页面的标题中指定它吗?

+0

看看使用robots.txt文件。只需谷歌,并阅读有关它。 – dehlenbe

回答

1

您可以从robots.txt文件开始。

See google's info here

我想你已经看过网站管理员工具和网站地图,从你说什么?请注意,虽然网站地图会帮助告诉谷歌要抓取的内容,但告诉他们哪些内容无法抓取并不会很好。

为此,您需要使用robots.txt文件来阻止某些页面/文件夹。

+0

将使用robots.txt阻止所有页面并为网站地图提供特定页面吗? – Noam

2

在您的站点的根文件夹中创建一个名为'robots.txt'的单个文本文件。里面...

User-agent: * 
Disallow: /thisfolder/ 
Disallow: /foo.html 
Disallow: /andthisfoldertoo/ 
Disallow: /andthisfile.html 

我把它用于项目文件。事实上,正如我写这篇文章,我想我会改变我的项目的工作方式,并始终把他们叫做/项目/ PROJECT1 /这样一个行会做一个子目录...

Disallow: /projects/ 

AND我也为我的图像文件添加一行。我不喜欢我的图片在网上...

Disallow: /imgs/