2013-10-25 17 views
-1

我为一家公司工作,他们的网络服务器是一团糟。我无法删除多个文件,因为他们需要稍后访问。我不希望它显示在我刚发现的关于robot.txt的搜索引擎中,非常迷人。Robot.txt只允许one.php和一个文件夹

我只是希望它让我的index.php,一切都在我的工作/文件夹

这是正确的吗?

User-agent: * 
Allow: /$ 
Allow: /work 
Allow: /http://mysite.com/index.php 
Disallow:/
+0

您不允许添加'Disallow:/',因此所有上述Allow语句都是无效的。 – AfromanJ

回答

3

如果你只想让index.php的d work文件夹(和工作子页面)。如果模式匹配,爬网程序将验证每行的行数。如果不是,它会传递给下一个。在这种情况下,Disallow: /是最新的,并会阻止所有其他不符合条件的抓取。

User-agent: * 
Allow: /index.php 
Allow: /work 
Disallow:/
+0

除“Allow”是没有通用支持的非标准扩展外。 – Quentin

+0

http://searchengineland.com/yahoo-google-microsoft-clarify-robotstxt-support-14125 它受yahoo,google和microsoft bing支持 – artSir

0

要排除所有文件,除了一个

这是目前有点尴尬,因为没有“允许”字段。该 简单的方法是把所有的文件将被禁止到一个单独的 目录,说“东西”,并留下了一个文件中的一级,这 上面的目录:

User-agent: * 
Disallow: /~joe/stuff/ 

或者你可以明确地禁止所有禁止网页:

User-agent: * 
Disallow: /~joe/junk.html 
Disallow: /~joe/foo.html 
Disallow: /~joe/bar.html 

http://www.robotstxt.org/robotstxt.html

+0

我无法移动文件,公司排序有旧的遗留链接,需要访问 – artSir

+0

请重新阅读所引用资料的后半部分 – Quentin

相关问题