Q

爬虫/搜索引擎如何遍历网络？

2012-06-22 22 views 0 likes

0

商业搜索引擎的爬虫如何遍历网页： “识别种子页面并通过连接的链接查找其他页面” 或 “索引网站wwwroot目录下的每个文件”。爬虫/搜索引擎如何遍历网络？

在后来的选项搜索引擎的情况下，甚至应该索引的东西，不被任何其他页面引用？

2012-06-22 David

A

回答

1

参考必须存在。它可以是

普通的HTML HREF允许指数
链接sitemaps.xml robots.txt中
链路允许的履带由网站站长在自己的搜索引擎后台提供
参考
等

它可以是任何其他的链接。

2012-06-22 20:23:02

+0

所以商业搜索引擎不会通过wget-m抓取网站的目录吗？ – David

+1

@David居然没有。由于大多数严重项目出于安全原因不允许目录列表。甚至更多，URL结构并不总是反映目录结构（这很明显）。另外，如果我没有错，wget -m只是FTP镜像选项。 –

+0

你可以通过它镜像任何网站wget -m http://www.gnu.org/software/wget/ – David

相关问题