2015-11-09 60 views
-1

我目前正在运行一个Web服务,用户可以在其中浏览产品。该URL基本上只是/products/product_pk/。但是,我们不提供某些product_pks的产品,例如没有小于200.是否有阻止漫游器访问诸如/products/10/(因为它们将收到404)的URL?不允许robot.txt中的某些URL

谢谢您的帮助:)

回答

0

我敢肯定,爬虫不要尝试和失败自动生成的URL。它抓取您的网站并找到下一个要抓取的链接。如果你有任何链接返回404,这是你的网站设计不好,因为他们不应该在那里。

+0

嘿,没有链接嵌入,将导致404页,因为这确实是不好的设计... – pasql

+0

然后不要担心。没有抓取工具会尝试URL - */products/product_pk/*,其中* product_pk *小于200.因为抓取工具在抓取时永远不会找到这样的网址。 –

+0

不幸的是我有这种情况,因此我添加了不支持product_pk的所有URL到禁止部分。现在我不再有任何点击/ 404错误警告邮件。但是,这似乎是一个非常糟糕的黑客:/ – pasql