2012-09-19 71 views

回答

0

我已经通过phpwebby的robots.txt分析解决我自己的问题,并确认它的任何建议...我已经把下面的代码到mother.com/robots.txt文件:

User-agent: Googlebot 
Disallow:/
User-agent: Mediapartners-Google 
Disallow:/
User-agent: Adsbot-Google 
Disallow:/
User-agent: Jeeves 
Disallow:/
User-agent: Slurp 
Disallow:/
User-agent: Yahoo-MMCrawler 
Disallow:/
User-agent: msnbot 
Disallow:/
User-agent: psbot 
Disallow:/
User-agent: * 
Disallow:/

并将以下内容添加到我的chilren.com robots.txt文件中。

User-agent: * 
#block indexing of email and print pages ------- 
Disallow: /*~email.shtml 
Disallow: /*~print.shtml 
Sitemap: http://www.children.com/sitemap_index.xml 

当然我三重检查,以确保(使用robots.txt文件分析仪),各种子目录没有通过mother.com域名访问的,他们通过children.com域可转位者。

注意:只需使用mother.com和children.com域作为示例。

0

实际上你甚至可能不想使用robots.txt。但是可以使用robots meta tagcanonical tags的组合。

在所有mother.com/children页面上,添加值为“noindex”的元robots标签。尽管搜索引擎可以抓取页面,但它不会将这些页面添加到索引中。现在,这仍然可能会对内容的权威位置造成一些混淆。

因此,您需要使用跨网域规范标记来向主要搜索引擎通知权威内容所在的位置。所以你会在mother.com/children的页面上添加一个规范标签,并在children.com上给它们赋值。您需要确保如果它是特定页面,则可以将其规范化为child.com上的相同内容,因为规范标记实际上仅用于相同的内容。