如何在没有robots.txt的情况下阻止机器人

正如我们所知，robots.txt可以帮助我们避免通过网络爬虫/机器人编制某些网页/部分的索引。但是使用这种方法有一些缺点：1.网络爬虫可能不会收听robots.txt文件; 2.你正在将你想保护的文件夹暴露给每个人;如何在没有robots.txt的情况下阻止机器人

还有一种方法可以阻止您希望从抓取工具保护的文件夹？请记住，这些文件夹可能希望可以从浏览器访问（如/ admin）。

检查请求上的User-Agent标头，如果标头包含机器人名称，则发出403。这将阻止所有诚实的机器人，但不是不诚实的机器人。但是，如果机器人真的很诚实，它会服从robots.txt。

2012-05-02 06:47:15

我虽然关于使用用户代理白名单，但很脏，一些新的用户代理可能会被禁止。其他解决方案？ – machineaddict

回答