0
商业搜索引擎的爬虫如何遍历网页: “识别种子页面并通过连接的链接查找其他页面” 或 “索引网站wwwroot目录下的每个文件”。爬虫/搜索引擎如何遍历网络?
在后来的选项搜索引擎的情况下,甚至应该索引的东西,不被任何其他页面引用?
商业搜索引擎的爬虫如何遍历网页: “识别种子页面并通过连接的链接查找其他页面” 或 “索引网站wwwroot目录下的每个文件”。爬虫/搜索引擎如何遍历网络?
在后来的选项搜索引擎的情况下,甚至应该索引的东西,不被任何其他页面引用?
参考必须存在。它可以是
它可以是任何其他的链接。
所以商业搜索引擎不会通过wget-m抓取网站的目录吗? – David
@David居然没有。由于大多数严重项目出于安全原因不允许目录列表。甚至更多,URL结构并不总是反映目录结构(这很明显)。另外,如果我没有错,wget -m只是FTP镜像选项。 –
你可以通过它镜像任何网站wget -m http://www.gnu.org/software/wget/ – David