2
我有一个小的情况,我必须删除我的robots.txt文件,因为我不想和机器人抓取工具来获取链接。如何用.htaccess替换robots.txt
另外我希望他们可以被用户访问,我不希望他们被搜索引擎缓存。
另外我不能添加任何用户身份验证的各种原因。
因此,我正在考虑使用mod-rewrite禁用搜索引擎抓取工具来抓取它,同时允许所有其他人执行此操作。
我想实现的就是写一个条件来检查进来的用户代理是一个搜索引擎,如果是,则它们重新定向到401
唯一的问题是我不知道的逻辑如何实现它。 :(
有人可以帮我一下吧。
在此先感谢。
问候,
它不会阻止绝对所有抓取工具停止浏览您的网站(只有那些尊重robots.txt - 所有大型搜索引擎都这么做)..但它绝对是一种开始的方式。 – LazyOne
那么没有办法阻止不尊重robots.txt的自定义爬虫,因为他们可以发送任何必要的信息,包括“正确的”User-Agent。 – Inoryy
我绝对同意你的看法。这个评论是针对OP而不是针对你的 - 我只是认为在这里留下评论比在问题下更合适。 – LazyOne