2012-02-01 75 views
14

我想停止搜索引擎爬行我的整个网站。如何阻止搜索引擎抓取整个网站?

我有一个公司的成员使用的Web应用程序。它位于Web服务器上,以便公司的员工可以访问它。没有人(公众)会需要它或找到它有用。

因此,我想添加另一层安全(理论上),通过完全删除所有搜索引擎机器人/搜寻器对其的访问来尝试和防止未经授权的访问。谷歌将我们的网站编入索引以使其成为可搜索内容从业务角度来看是毫无意义的,并且为黑客添加另一种方式来首先找到该网站来尝试并破解它。

我知道在robots.txt你可以告诉搜索引擎不要抓取某些目录。

是否有可能告诉机器人不要爬网整个网站,而不必列出所有目录不要抓取?

这最好是用robots.txt完成,还是用.htaccess或其他方法做得更好?

+1

您的网站是通过黑帽黑客即使没有搜索引擎索引你的网站访问。黑帽黑客并没有通过谷歌搜索找到你。他们有自己的网络爬行网络,忽略'robots.txt'。此外,通过让员工难以通过谷歌搜索找到您的网站,您正在损害互联网。当你这样做时,Google不喜欢它,并且你没有让你的网站更安全。 Plus Google通过引入客户来帮助您。就像TSA一样,从你身上拿走你的1英寸刀片,他们不会让事情变得更安全,而且他们正在讨论每个人。 – 2013-03-22 15:41:34

回答

11

最好使用robots.txt文件来处理,只是尊重文件的机器人。

要阻止整个网站在您的网站的根目录下添加这robots.txt

User-agent: * 
Disallow:/

限制访问您的站点为其他人一样,.htaccess是更好的,但你需要定义访问规则,例如通过IP地址。

下面是.htaccess规则从贵公司的IP限制大家除了你的人:

Order allow,deny 
# Enter your companies IP address here 
Allow from 255.1.1.1 
Deny from all 
+0

感谢你的信任,robots.txt信息真的很有帮助,我希望只允许公司ip范围,但应用程序将被路上的代表使用,所以他们的ip可以随时更改,否则我会当然这么做。感谢:-) – 2012-02-01 20:44:53

+0

是否有办法阻止恶意机器人,例如将它们识别为机器人而不是用户并阻止它们,因为除了人类之外没有任何理由应该访问网站。 – 2012-02-01 20:49:43

+0

@IainSimpson你可以尝试基于userAgent来拒绝'bot“,但它很容易被恶搞,它很有可能是坏的机器人不会将自己标识为机器人开始... – 2012-02-01 21:07:59

7

使用robots.txt保持网站进行搜索引擎索引的有one minor and little-known problem:如果没有人链接到你的网站从任何页面(由Google索引)(无论如何,都必须发生),Google may still index the link并将其显示为其搜索结果的一部分,即使您不允许它们获取链接指向的页面。

如果这可能是你的问题,解决的办法是使用robots.txt,而是以包括与您网站上的每一页上的价值noindex,nofollow一个robots元标记。你甚至可以做到这一点在.htaccess文件中使用mod_headersX-Robots-Tag HTTP标头:

Header set X-Robots-Tag noindex,nofollow 

该指令将头X-Robots-Tag: noindex,nofollow添加到它适用于包括非HTML页面,如图像的每一页。当然,你可能要包括相应的HTML meta标签太多,以防万一(这是一个较旧的标准,因此可能更广泛的支持):

<meta name="robots" content="noindex,nofollow" /> 

请注意,如果你这样做,Googlebot会仍然尝试抓取它发现到您网站的任何链接,因为它需要在看到页眉/元标记之前抓取页面。当然,有些人可能会认为这是一个功能,而不是一个bug,因为它可以让你查看你的访问日志,看看Google是否找到了你的网站的任何链接。

无论如何,无论你做什么,请记住,很难让“秘密”网站保密很长时间。随着时间的推移,你的一个用户不小心将网站链接泄露到网站的可能性接近100%,并且如果有任何理由认为某人有兴趣找到该网站,你应该假设他们会这样做。因此,请确保您的在您的网站上放置了适当的访问控制,使软件保持最新状态并对其执行定期安全检查。

+3

这类似于增加您的安全通过在门窗上放置一个标志来表明:“窃贼,不要看这个房子”。窃贼说:“大声笑”。 – 2013-03-22 15:50:29

+0

这不是关于'安全',而是关于明智的搜索结果。我写了一个早期的Wiki,一旦Google发现它,所有的页面历史记录,与以前版本的差异和“编辑”页面都被编入索引,而不是友好的用户登陆地点。从Google的历史记录中删除“修改”和“历史记录”页面并不会使它们更安全,但它有助于将垃圾从Google中排除出去,并帮助用户到达正确的位置。 – Galax 2016-02-05 14:31:55

0

如果您担心安全问题,并且锁定IP地址不可行,您应该考虑要求您的用户通过身份验证来访问您的站点。

这意味着任何未经过身份验证的人(谷歌,机器人,人谁绊倒链接)都无法访问您的网页。

你可以将它烧成你的网站本身,或使用HTTP基本认证。

https://www.httpwatch.com/httpgallery/authentication/