2010-02-09 57 views
1

我不太了解搜索引擎优化和网络蜘蛛如何工作,所以请原谅我的无知。我正在创建一个网站(使用ASP.NET-MVC),其中有一些区域显示从数据库中检索到的信息。数据对用户来说是唯一的,所以没有真正的服务器端输出缓存正在进行。但是,由于数据可能包含用户可能不希望从搜索引擎结果中显示的内容,因此我想阻止任何蜘蛛访问搜索结果页面。我应该采取什么特别措施确保搜索结果目录不被抓取?另外,蜘蛛是否会抓取一个动态生成的页面,并且会阻止某些目录被我的搜索引擎排名搜索搞乱?防止机器人爬行网站的某些区域

编辑:我应该补充说,我正在阅读robots.txt协议,但它依赖于来自网络爬虫的合作。但是,我还想阻止任何将忽略robots.txt文件的数据挖掘用户。

我感谢任何帮助!

回答

2

通过在服务器上实施限制措施,可以防止某些恶意客户端过多地击中服务器。 “对不起,您的IP在过去几分钟内对此服务器提出了太多请求,请稍后再试。”但是,在实践中,假设您无法阻止真正的恶意用户绕过任何适用的限制机制。

鉴于此,这里的更重要的问题:

你舒服,你为各方提供世界看到的信息? 您的用户对此感到满意吗?

如果这些问题的答案是否定的,那么您应该确保只有授权用户才能看到敏感信息。如果信息不是特别敏感,但您不希望客户端爬取它,那么节流可能是一个很好的选择。无论如何你有可能会被抓取?如果没有,robots.txt应该没问题。

+0

感谢您的答复。这取决于用户他们决定揭示哪些信息(完全了解它是公开的),如果用户想隐藏密码,也由用户自行决定添加密码。我希望该网站被抓取,以便宣传该服务。我只是不希望用户数据被编入索引。 – Skoder 2010-02-09 15:41:34

1

查看Robots exclusion standard。这是一个您放在网站上的文本文件,它告诉机器人它可以做什么和不可以做什么索引。您还需要解决如果机器人不遵守robots.txt文件会发生什么情况。

+0

我从字面上只是更新了我的文章,以包括robots.txt信息在同一时间作为您的文章:) – Skoder 2010-02-09 00:47:03

2

看来你有2个问题。

首先关注某些数据出现在搜索结果中。第二种是恶意或不道德的用户收集用户相关数据。

第一个问题将通过适当使用robots.txt文件来涵盖,因为所有的大型搜索引擎都会遵守这个规则。

第二个问题似乎更多与数据隐私有关。立即想到的第一个问题是:如果有人们可能不想显示的用户信息,为什么你可以提供它?
这些数据的隐私政策是什么?
用户是否有能力控制提供哪些信息?
如果信息可能对系统敏感但对系统很重要,它可能会受到限制,因此它仅适用于登录用户?

+0

用户可以选择显示显示哪些信息,如果他们选择这样做,他们可以用密码保护他们的结果(类似于Twitter)。即使在保护区域,机器人可能没有注册帐户,登录,执行搜索并缓存结果?当然,没有大名字的搜索引擎会,但也许是恶意的?我会通过ip扫描来保护,但只是好奇,如果这甚至是可能的。 – Skoder 2010-02-09 15:44:24

+0

@Skoder如果任何登录用户可能是机器人,您需要查看行为模式,并可能实施某种形式的CAPTCHA,以防止进一步的“浏览”,直到您确认他们正在做的事情。实际上,如果有人可以注册到网站并浏览数据,那么无法保证它永远不会被保存/缓存/等。 – 2010-02-09 16:02:41

+0

这是一个公平点。这些数据并不是超敏感/非公开的知识,但我仍然希望保持较高的隐私(如果只是为了良好的做法)。谢谢您的帮助。 – Skoder 2010-02-09 16:17:23

1

robots.txt文件如上所述。如果这还不够,那么你可以:

  • 阻止未知useragents - 很难维持,容易让机器人伪造浏览器的(尽管大多数合法机器人惯于)
  • 阻止未知IP地址 - 一个没有用公共站点
  • 需要登录
  • 限制用户连接 - 棘手的调整,你仍然会公开信息。

也许通过使用组合。无论哪种方式,这是一个权衡,如果公众可以浏览它,也可以一个机器人。确保您不会阻止&疏远您尝试阻止漫游器的人。

+0

如果担心恶意漫游器浏览(缓存)该网站,未知用户代理上的阻止不会产生影响。任何一种基本的恶意机器人都会知道改变用户代理并冒充你想访问的机器人。他们也会改变IP地址并使用多个不同的公共代理。 – 2010-02-09 16:05:29

+1

基本上总结了我所有的观点... – Mobs 2010-02-10 09:34:10

0

几个选项:

  • 强制用户使用JavaScript
登录查看内容
  • 内容之前在Flash中添加一个CAPTCHA页面
  • 嵌入内容
  • 负载动态