2011-06-28 35 views
2

我有一个小的情况,我必须删除我的robots.txt文件,因为我不想和机器人抓取工具来获取链接。如何用.htaccess替换robots.txt

另外我希望他们可以被用户访问,我不希望他们被搜索引擎缓存。

另外我不能添加任何用户身份验证的各种原因。

因此,我正在考虑使用mod-rewrite禁用搜索引擎抓取工具来抓取它,同时允许所有其他人执行此操作。

我想实现的就是写一个条件来检查进来的用户代理是一个搜索引擎,如果是,则它们重新定向到401

唯一的问题是我不知道的逻辑如何实现它。 :(

有人可以帮我一下吧。

在此先感谢。

问候,

回答

2

我可以理解你错了,但我觉得

User-agent: * 
Disallow:/

在机器人.txt会做你想做的 - 不让任何爬虫进入,同时保持网站对普通用户开放。

或者您是否需要从Web服务器专门删除robots.txt(出于何种原因?)?

+0

它不会阻止绝对所有抓取工具停止浏览您的网站(只有那些尊重robots.txt - 所有大型搜索引擎都这么做)..但它绝对是一种开始的方式。 – LazyOne

+1

那么没有办法阻止不尊重robots.txt的自定义爬虫,因为他们可以发送任何必要的信息,包括“正确的”User-Agent。 – Inoryy

+0

我绝对同意你的看法。这个评论是针对OP而不是针对你的 - 我只是认为在这里留下评论比在问题下更合适。 – LazyOne