帮助!谷歌索引我的网站上的测试文件夹,没有人保存我本来应该知道的:(如何限制谷歌。从索引链接和某些文件夹谷歌索引我的测试文件夹在我的网站:(我如何限制网络爬虫!
回答
使用robot exclusion file,或者更好的密码保护测试领域使用robots.txt文件! “保护”你不希望别人看到的地方有点像在你的后门挂上一个标志,说“我已经离开这个开放,但请不要进来” :)
如果您Google webmaster tools注册,你可以请求删除搜索结果,如果你确保它不再通过访问他们的履带。
使用robots.txt
谷歌为它,或查看:http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40360
避免抓取工具为您的部分内容编制索引的最佳方法是通过您网站根目录的robots.txt文件。
下面是一个例子:
User-agent: *
Allow:/
Crawl-delay: 5
User-agent: *
Disallow: /cgi-bin
Disallow: /css
Disallow: /img
Disallow: /js
在第一个块,我告诉他履带可以浏览所有。
第二个块有我希望他避免的文件夹列表。
这不是一个安全的方式确实保护它,因为一些爬虫不尊重它。
如果你真的想要保护它,最好的办法应该是在这些文件夹上有一个.htaccess文件来强制认证。
你不需要一个“允许”参数。除了不允许的文件夹和文件以外的所有内容都将默认编入索引。 – TFM 2009-06-11 11:11:31
与robots.txt相关的问题并不在于抓取工具,它将抓取工具视为最有趣的事情列表,将其视为最有意思的事情列表,并且在您告诉别人无论何处都会指出特殊情况。 – 2009-06-11 11:46:47
当心!你可以告诉“好”的机器人(如谷歌)远离某些地方,但其他机器人不会发挥出色。因此,正确解决这个问题的唯一方法就是对那些不被视为“公共”的地方添加一些限制。您可以限制对您信任的某些IP地址的访问,或者您可以添加用户名/密码认证。
也许正确的答案是不把测试代码放在公共网站上。为什么它是你部署的一部分?
如果你使用Apache:
的.htaccess
AuthUserFile //.htpasswd AuthGroupFile /dev/null AuthName "You must log in to access this development web site" AuthType Basic
<Limit GET>
require valid-user
</Limit>
密码文件(htpasswd的),那么包含
name:password
的密码进行加密。如果您搜索“htpasswd”,您会发现许多免费程序为您加密密码。
TRiG。
- 1. 我应该保护从谷歌爬虫在我的网站上传文件夹中的文件吗?
- 2. 我如何让我的AngularJS网站在谷歌上爬行?
- 3. 什么让我的网络爬虫慢?
- 4. 网络爬虫
- 5. 如何让我的谷歌网络应用在谷歌搜索?
- 6. 让PHP网络爬虫尊重任何网站的robots.txt文件
- 7. 谷歌在我的网站搜索
- 8. 如何添加谷歌定制搜索在我们的网站
- 9. 我如何处理JavaScript的一个Perl的网络爬虫?
- 10. 从Google网络爬虫程序获取不在我网站上的404错误?
- 11. 网络爬虫文本云
- 12. 谷歌不索引我的网站,但索引论坛?
- 13. C++网络爬虫
- 14. PHP网络爬虫
- 15. Python网络爬虫
- 16. java网络爬虫
- 17. 网络爬虫类
- 18. 我的谷歌搜索网站
- 19. 为我的网站搜索谷歌
- 20. angular.js如何告诉谷歌索引我的网站?
- 21. 如何让我的Perl网络爬虫更快?
- 22. 如何使谷歌搜索我的网站的动态网页
- 23. 我在想网络爬虫,但如何开始?
- 24. 谷歌网站作为我的网站在我的域名
- 25. 谷歌搜索的网站限制Api
- 26. 如何使不遵守我的robots.txt文件的网络爬虫崩溃?
- 27. 如何阻止爬虫不能访问我的网站?
- 28. 如何检查我的网站是否使用爬虫访问?
- 29. 网络爬虫的功能
- 30. 网络爬虫的Java
+1对于'使用robots.txt文件'保护'你不希望别人看到的区域有点像在后门上挂着一个标志,说:“我已经把它打开了,但是请不要进来:) :) – UnkwnTech 2009-06-11 09:53:51