2012-05-02 155 views
1

正如我们所知,robots.txt可以帮助我们避免通过网络爬虫/机器人编制某些网页/部分的索引。但是使用这种方法有一些缺点:1.网络爬虫可能不会收听robots.txt文件; 2.你正在将你想保护的文件夹暴露给每个人;如何在没有robots.txt的情况下阻止机器人

还有一种方法可以阻止您希望从抓取工具保护的文件夹?请记住,这些文件夹可能希望可以从浏览器访问(如/ admin)。

回答

2

检查请求上的User-Agent标头,如果标头包含机器人名称,则发出403。这将阻止所有诚实的机器人,但不是不诚实的机器人。但是,如果机器人真的很诚实,它会服从robots.txt

+0

我虽然关于使用用户代理白名单,但很脏,一些新的用户代理可能会被禁止。其他解决方案? – machineaddict

相关问题