2013-06-06 74 views
1

所以我有一个网站http://www.example.com。 JS/CSS/Images由CDN提供 - http://xxxx.cloudfront.nethttp://cdn.example.com;他们都是一样的东西。现在CDN只提供任何类型的文件,包括我的PHP页面。谷歌以某种方式抓取了该CDN网站;两个网站实际上 - 从cdn.example.com和从http://xxxx.cloudfront.net。考虑到不允许抓取CDN网站

  1. 我不是试图设置一个子域或镜像网站。如果发生这种情况,那是我试图建立一个CDN的副作用。
  2. CDN是一些Web服务器,不一定是Apache。我不知道那是什么类型的服务器。
  3. CDN上没有请求处理。它只是从原始服务器获取东西。我想,你不能在CDN上放置自定义文件;它只是从原始服务器获取东西。无论您需要放在CDN上,都来自原始服务器。

  4. 如何防止抓取PHP页面?

  5. 我应该允许从cdn.example.com或example.com上抓取图像吗? HTML内部图像的链接全部是cdn.example.com。如果我只允许从example.com爬取图片,那么几乎没有任何可爬行的东西 - 这些图片没有链接。如果我允许抓取cdn.example.com中的图片,那它是不是漏掉了搜索引擎优化的好处?

了,我认为,基于计算器解答一些备选方案:

  1. 编写自定义robot_cdn.txt和服务基于HTTP_HOST的自定义robots_cdn.txt。这是堆栈溢出的许多答案。
  2. 从子域提供新的robots.txt。正如我上面解释的,我不认为CDN可以像一个子域一样对待。
  3. 待办事项301重定向时HTTP_HOST是cdn.example.com到www.example.com

建议?

与此相关的问题,例如How Disallow a mirror site (on sub-domain) using robots.txt?

+1

所有的爬虫如果你正在争取SEO位置,也许相对=典型的解决方案应该有所帮助:包括** <链接的rel =“规范的” href = “...”/> ** 在您网页的** head **部分。有关详情,请参见[google博客](http://googlewebmastercentral.blogspot.com.es/2009/02/specify-your-canonical.html) – futuretelematics

回答

0

你可以把robots.txt的在你的根目录中,以便将与cdn.-yourdomain-.com/robots.txt送达。在此robots.txt您可以禁止设置低于

User-agent: * 
Disallow:/