2012-06-22 22 views
0

商业搜索引擎的爬虫如何遍历网页: “识别种子页面并通过连接的链接查找其他页面” 或 “索引网站wwwroot目录下的每个文件”。爬虫/搜索引擎如何遍历网络?

在后来的选项搜索引擎的情况下,甚至应该索引的东西,不被任何其他页面引用?

回答

1

参考必须存在。它可以是

  • 普通的HTML HREF允许指数
  • 链接sitemaps.xml robots.txt中
  • 链路允许的履带由网站站长在自己的搜索引擎后台提供
  • 参考

它可以是任何其他的链接。

+0

所以商业搜索引擎不会通过wget-m抓取网站的目录吗? – David

+1

@David居然没有。由于大多数严重项目出于安全原因不允许目录列表。甚至更多,URL结构并不总是反映目录结构(这很明显)。另外,如果我没有错,wget -m只是FTP镜像选项。 –

+0

你可以通过它镜像任何网站wget -m http://www.gnu.org/software/wget/ – David