什么是阻止漫游器/抓取器击中链接/页面的正确方法？

我正在从事分析工作，我在准确的结果中获得很多，主要是因为社交媒体机器人或其他随机机器人，如Twitter的BufferBot，DataMinr等。什么是阻止漫游器/抓取器击中链接/页面的正确方法？

是否有任何可用的已知机器人的Web API /数据库，我可以用它来检查它是机器人还是人类？

或者有没有什么好的方法来阻止这种类型的机器人，以便它不影响统计分析？

来源

2014-10-20 Meet

也许看看使用Htaccess。这可能有所帮助：http://www.javascriptkit.com/howto/htaccess13.shtml – 2014-10-20 13:51:24

@TheHumbleRat使用这种方法我可能需要手动添加漫游在社交媒体网络上漫游的机器人数量。嗯 – Meet 2014-10-20 13:55:50

你能接受最有用的答案吗？这是改进的方式。] – seanyt123 2014-10-20 14:19:07

创建您的路线callled robots.txt一个文件，并添加以下行：

User-agent: * 
Disallow:/

来源

2014-10-20 13:46:48 DrRoach

你假设机器人会尊重该文件。只有好的才能做到。 – 2014-10-20 13:49:24

这肯定会阻止所有僵尸程序，并停止谷歌索引该网站 – 2014-10-20 13:52:04

您可以链接到robots.txt封锁了一个隐藏的页面。访问时，捕获僵尸程序的用户代理和IP地址，然后将其中一个或两个追加到一个.htaccess文件，该文件永久阻止它们。它只捕捉不好的机器人，并且是自动化的，所以你不需要做任何事情来维护它。

只要确保先设置robots.txt文件，然后让优秀机器人有机会阅读并相应地更新其爬行。

来源

2014-10-20 13:50:33

没有办法完全阻止所有的机器人，这将是一个疯狂的时间花费，你可以使用.htaccess文件或robots.txt，停止谷歌索引该网站很容易，但阻止bot流量可以得到复杂并且像一幢房子一样行动我建议使用此列表的爬虫/网络机器人http://www.robotstxt.org/db.html

来源

2014-10-20 13:53:36 seanyt123

我想阻止在社交媒体网络上爬行的僵尸工具或用户代理。问题是很难找到所有这些机器人的最新数据库。即使我阻止它们，他们再次使用不同的IP – Meet 2014-10-20 13:59:57

是的，我认为如果你有问题，是因为你正在分析流量，试图阻止机器人不会有用，因为它会给幻想所有机器人如果抓取工具是积极的（例如寻找邮件地址的垃圾邮件抓取工具），那么如果您使用的是谷歌分析，他们会发现一个解决方案，我会看看这个http：//www.lunametrics。 com/blog/2013/09/05/filter-bots-google-analytics /＃sr = g＆m = o＆cp = or＆ct = -tmc＆st =％28opu％20qspwjefe％29＆ts = 1413813882 – seanyt123 2014-10-20 14:06:02

机器人问题正在进行中，到目前为止，所以我认为检查数据库是最有用的，我提供的数据库是最新的，经常更新！ – seanyt123 2014-10-20 14:07:49

什么是阻止漫游器/抓取器击中链接/页面的正确方法？

回答

相关问题