说我的网站children.com(我想索引)也可以通过http://mother.com/children/(我不想索引)访问。阻止索引父域的子目录
示例层次: /家/用户名/母亲:http://mother.com | _孩子:http://www.children.com
我会放什么在我的mother.com/robots.txt文件,以防止children.com和所有子内容children.com的目录被索引为属于mother.com?
感谢
说我的网站children.com(我想索引)也可以通过http://mother.com/children/(我不想索引)访问。阻止索引父域的子目录
示例层次: /家/用户名/母亲:http://mother.com | _孩子:http://www.children.com
我会放什么在我的mother.com/robots.txt文件,以防止children.com和所有子内容children.com的目录被索引为属于mother.com?
感谢
我已经通过phpwebby的robots.txt分析解决我自己的问题,并确认它的任何建议...我已经把下面的代码到mother.com/robots.txt文件:
User-agent: Googlebot
Disallow:/
User-agent: Mediapartners-Google
Disallow:/
User-agent: Adsbot-Google
Disallow:/
User-agent: Jeeves
Disallow:/
User-agent: Slurp
Disallow:/
User-agent: Yahoo-MMCrawler
Disallow:/
User-agent: msnbot
Disallow:/
User-agent: psbot
Disallow:/
User-agent: *
Disallow:/
并将以下内容添加到我的chilren.com robots.txt文件中。
User-agent: *
#block indexing of email and print pages -------
Disallow: /*~email.shtml
Disallow: /*~print.shtml
Sitemap: http://www.children.com/sitemap_index.xml
当然我三重检查,以确保(使用robots.txt文件分析仪),各种子目录没有通过mother.com域名访问的,他们通过children.com域可转位者。
注意:只需使用mother.com和children.com域作为示例。
实际上你甚至可能不想使用robots.txt。但是可以使用robots meta tag和canonical tags的组合。
在所有mother.com/children页面上,添加值为“noindex”的元robots标签。尽管搜索引擎可以抓取页面,但它不会将这些页面添加到索引中。现在,这仍然可能会对内容的权威位置造成一些混淆。
因此,您需要使用跨网域规范标记来向主要搜索引擎通知权威内容所在的位置。所以你会在mother.com/children的页面上添加一个规范标签,并在children.com上给它们赋值。您需要确保如果它是特定页面,则可以将其规范化为child.com上的相同内容,因为规范标记实际上仅用于相同的内容。