2012-09-25 25 views
1

我想写一个脚本,它能让我识别试图淹没我的oscommerce站点的机器人,但一些机器人经常更改它们的IP,所以我不能真正使用IP来禁止它们。为什么不应该让机器人允许会话ID?

我在想可能是如果我启用僵尸工具的会话,我可以使用会话ID来阻止僵尸工具。

我对此进行了一些研究,发现不推荐启用僵尸工具会话,但我仍不确定为什么?

+0

下面的任何答案是否适合您? –

+0

我发布了我在下面找到的答案。谢谢。 –

回答

3

允许僵尸程序进行会话的问题在于,某些恶意僵尸程序在某些情况下不会在它在您的网站上爬行的页面上保持Cookie状态。所以每一个机器人在你的网站上点击都会产生一个新的会话。

+0

谢谢奥马尔。我想我会再研究一下。我仍然不满意。 –

2

大多数机器人会忽略会话ID,因为他们知道这不是网址的一部分。否则,他们必须索引index.php?sid = ABC,index.php?sid = BBC,index.php?sid = CBC等页面。因为他们知道这是相同的页面,所以他们会忽略会话ID。

你为什么不阻止基于user_agent的机器人?使用user_agent无法识别自身的机器人不能真正被阻止,除了IP地址。

1

下面是一些我发现 -

  1. 搜索机器人还可能得到会话ID和力量指数在同一页数百时间或更长时间,因为大多数僵尸不会保留他们的Cookie状态。这将意味着重复的内容索引,并可能严重影响我们的搜索引擎排名。

  2. 由于bot在设计上忽略了Cookie标头,因此它不会在每个后续请求中发回确认。实际上,机器人的每个请求都会创建一个新会话。一个大型网站上的侵略性机器人可以创建数百甚至数千的幻像会话,占用内存中的空间,直到它们到期

+0

这听起来像我在我的回答中所说的 –