2008-09-03 103 views
11

搜索引擎机器人以什么为出发点?是DNS查找还是从一些知名网站的固定列表开始?任何猜测或建议?搜索引擎在哪里开始爬行?

+0

这个问题似乎是题外话,因为它不是关于编程。请参阅帮助中心的[我可以询问哪些主题](http://stackoverflow.com/help/on-topic)。也许[Web Apps Stack Exchange](http://webapps.stackexchange.com/)会是一个更好的地方。 – jww 2014-08-06 00:43:19

回答

8

你提的问题可以从两个方面来解释:

你问在哪里搜索引擎从一般开始他们爬行,或在那里他们开始抓取特定网站?

我不知道大公司是如何工作的;但是如果你想制作自己的搜索引擎,你可能会将它与流行的门户网站相结合。 DMOZ.org似乎是一个受欢迎的起点。由于大玩家拥有的数据比我们多得多,所以他们可能会从各个地方开始爬行。

如果您问SE开始抓取您的特定网站的位置,可能与您的哪个网页最受欢迎有很大关系。我想如果你有很多其他网站链接到的超级热门网页,那么这将是SE开始进入的页面,因为其他网站有更多的入口点。

请注意,我在搜索引擎优化或任何我不是;我刚刚在研究一个项目时研究了bot和SE流量。

4

您可以提交你的网站使用他们site submission forms搜索引擎 - 这将让你进入他们的系统。当你真的被抓取后,无法说 - 根据经验,通常大约需要一周左右的时间才能进行初始抓取(主页,其他页面的几个链接从那里开始)。您可以使用清晰的语义链接结构并提交sitemap来增加您的多少页面的抓取和索引 - 这些页面允许您列出所有页面,并相对于另一个页面加权,这有助于搜索引擎了解您查看的重要程度网站的每个部分都相对于其他部分。

如果您的网站与其他网站抓取的链接,那么你的网站也会被抓取,从链接的网页,并最终蔓延到你的网站的其余部分。这可能需要很长时间,并且取决于链接网站的抓取频率,因此提交网址是让Google知道您的最快捷方式!

一个工具,我不能建议高度不够是Google Webmaster Tool。它可以让你看到你被抓取的频率,googlebot遇到的任何错误(断开的链接等),还有其他一些有用的工具。

2

原则上他们从无到有。只有当有人明确告诉他们包含他们的网站时,他们才能开始抓取该网站并使用该网站上的链接搜索更多内容。

然而,在实践中,搜索引擎的创建者(S)将投入他们能想到的一些任意站点。例如,他们自己的博客或他们在书签中拥有的网站。

理论上一个也可以只挑一些随机不会忽略,看看是否有一个网站在那里。我怀疑有人会这样做;上述方法将工作得很好,不需要额外的编码来引导搜索引擎。