2013-08-06 136 views
3

我有一个开发网站https://text-domain.com。 (不是真实网站) 当我转到https://duckduckgo.com并搜索text-domain.com时,它确实会返回结果。阻止从搜索引擎网站 - DuckDuckGo

有什么我试过到目前为止:

创建robots.txt文件,下面的代码(把在我的根目录,即在text-domain.com/robots.txt):

User-agent: * 
Disallow:/

然后加入meta标记像这样在我的模板文件:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> 

即使这样做之后,我搜索了DuckDuckGo,并取得了第同样的结果。欢迎大家提出意见。

P.S

嗨,等待几天后,有2种表现:

  • 尽管如此,搜索结果是牵强。
  • 但我看到的消息,此结果说:“我们想展现 你在这里的描述,但该网站将不允许我们。”

    是否有可能完全从结果显示阻止?

+0

你等了多久?这不会是瞬间的。 – JJJ

+0

@juhana哦,需要多长时间,我做了大约3个小时的返回 – Vimalnath

+1

您需要等到抓取工具回到网站。可能需要几天时间。 – JJJ

回答

1

DuckDuckGo应该尊重您的robots.txt。他们的机器人DuckDuckBot记录在https://duckduckgo.com/duckduckbot

但是请注意:DuckDuckGo机器人本身并未抓取所有内容(因为DuckDuckGo从其他来源获取结果),所以如果您不阻止其他来源的机器人(如Bing),您的网页仍可能显示。有关更多详细信息,请参阅mlissner’s answer

robots.txt的,都需要考虑两件事情:

  • ,这需要时间,直到你的robots.txt变化的认可。您必须等到相关的机器人再次访问您的网站。
  • 即使您的网址被封锁在robots.txt,搜索引擎仍然可以列出你的网址在搜索结果中(不包括像标题和描述抓取元数据)。

使用robots - meta元素与noindex会阻止甚至在像谷歌搜索引擎中列出的网址,但DDG doesn’t seem来支持它。

请注意,您使用的错误引号在你的榜样。这应该是

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> 

代替

<META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”> 
+0

感谢您的链接,但是我的引号在我的实际网站中看起来是正确的,所以我猜想我需要等待一段时间才能解决问题。 – Vimalnath

+0

嗨,等待几天后有2个调查结果: - 然后,搜索结果被提取。 - 但是我看到一条消息,表示结果如下:“我们想在此向您显示一个描述,但该网站不允许我们。” ,是否有可能完全阻止在结果中显示? – Vimalnath

+0

@vimal:然后DDG似乎不像Google那样解释'meta'-'robots'。 [有人说](http://michaeljaylissner.com/blog/support-for-x-robots-tag-http-header-and-robots-HTML-meta-tag)他们不支持'meta'- “机器人”(至少在2012年)。 – unor

6

DuckDuckGo是一个奇怪的鸭子,当谈到纳入他们的研究结果。我所做的研究公平一点关于这个话题在多个搜索引擎,并已经取得了一些电子邮件来回DDG。

这是交易。他们从其他搜索引擎获取内容,如listed here。据我所知,他们的搜索结果并不表明其搜索引擎是它的来源,所以要删除你的内容,你需要基本上上游去他们所有的来源,让你的内容从那里取出。如果这听起来有点繁琐,不用担心—你想这样做,无论如何,对不对?

DDG确实有自己的爬行以及,人们形象地称为the DuckDuckBot。它荣誉NOINDEX HTML标签,也不是HTTP标头(它确实兑现的robots.txt),但是这似乎并不重要,因为没有新的结果由Duck​​DuckBot创建。据我所知,这是不记录任何地方,但我有自己的工作人员,我引用下面谈到:

DDG说(2014年6月6日):

我们得到了我们的研究结果从多个源而我们自己的抓取工具不会成为你的[问题]的原因。我们的抓取工具只做非常具体的任务,如寻找(而不是实际爬行)的域名停放,垃圾网站等

如果有来自[您的网站]出现在DuckDuckGo的结果,不应该,他们很可能从我们的上游来源之一流出。如果在那里移除,那么他们将停止在我们的结果中显示。

我回应:

OK,所以没有通过您的爬虫,这的确不支持NOINDEX HTML或HTTP标签放在你的索引获取?

他们证实:

没错!很抱歉,如果您发现任何不寻常的事情,请随时通知我们。

那么剩下的唯一问题就是如何从上游供应商中删除您的内容。对于这一点,我点你my blog因为它相差提供商。其关键是:

  1. 使用noindex HTML元标记和x机器人HTTP标记(用于图像等)告诉搜索引擎不要在其结果中包含某些东西;
  2. 在您的sitemap.xml文件中列出您的整个网站,以便所有的搜索引擎都可以在那里找到它。
  3. 使用robots.txt来阻止不支持noindex或x-robots标签的搜索引擎。

而奖励积分:

  1. 设置你的sitemaps.xml文件,以便他们NOINDEX成立(因而在搜索结果中不会出现)。
  2. 同样为你的robots.txt文件做。

这是一个复杂的世界。