我为一家公司工作,他们的网络服务器是一团糟。我无法删除多个文件,因为他们需要稍后访问。我不希望它显示在我刚发现的关于robot.txt的搜索引擎中,非常迷人。Robot.txt只允许one.php和一个文件夹
我只是希望它让我的index.php,一切都在我的工作/文件夹
这是正确的吗?
User-agent: *
Allow: /$
Allow: /work
Allow: /http://mysite.com/index.php
Disallow:/
我为一家公司工作,他们的网络服务器是一团糟。我无法删除多个文件,因为他们需要稍后访问。我不希望它显示在我刚发现的关于robot.txt的搜索引擎中,非常迷人。Robot.txt只允许one.php和一个文件夹
我只是希望它让我的index.php,一切都在我的工作/文件夹
这是正确的吗?
User-agent: *
Allow: /$
Allow: /work
Allow: /http://mysite.com/index.php
Disallow:/
如果你只想让index.php
的d work
文件夹(和工作子页面)。如果模式匹配,爬网程序将验证每行的行数。如果不是,它会传递给下一个。在这种情况下,Disallow: /
是最新的,并会阻止所有其他不符合条件的抓取。
User-agent: *
Allow: /index.php
Allow: /work
Disallow:/
要排除所有文件,除了一个
这是目前有点尴尬,因为没有“允许”字段。该 简单的方法是把所有的文件将被禁止到一个单独的 目录,说“东西”,并留下了一个文件中的一级,这 上面的目录:
User-agent: * Disallow: /~joe/stuff/
或者你可以明确地禁止所有禁止网页:
User-agent: * Disallow: /~joe/junk.html Disallow: /~joe/foo.html Disallow: /~joe/bar.html
您不允许添加'Disallow:/',因此所有上述Allow语句都是无效的。 – AfromanJ