搜索引擎机器人以什么为出发点?是DNS查找还是从一些知名网站的固定列表开始?任何猜测或建议?搜索引擎在哪里开始爬行?
回答
你提的问题可以从两个方面来解释:
你问在哪里搜索引擎从一般开始他们爬行,或在那里他们开始抓取特定网站?
我不知道大公司是如何工作的;但是如果你想制作自己的搜索引擎,你可能会将它与流行的门户网站相结合。 DMOZ.org似乎是一个受欢迎的起点。由于大玩家拥有的数据比我们多得多,所以他们可能会从各个地方开始爬行。
如果您问SE开始抓取您的特定网站的位置,可能与您的哪个网页最受欢迎有很大关系。我想如果你有很多其他网站链接到的超级热门网页,那么这将是SE开始进入的页面,因为其他网站有更多的入口点。
请注意,我在搜索引擎优化或任何我不是;我刚刚在研究一个项目时研究了bot和SE流量。
您可以提交你的网站使用他们site submission forms搜索引擎 - 这将让你进入他们的系统。当你真的被抓取后,无法说 - 根据经验,通常大约需要一周左右的时间才能进行初始抓取(主页,其他页面的几个链接从那里开始)。您可以使用清晰的语义链接结构并提交sitemap来增加您的多少页面的抓取和索引 - 这些页面允许您列出所有页面,并相对于另一个页面加权,这有助于搜索引擎了解您查看的重要程度网站的每个部分都相对于其他部分。
如果您的网站与其他网站抓取的链接,那么你的网站也会被抓取,从链接的网页,并最终蔓延到你的网站的其余部分。这可能需要很长时间,并且取决于链接网站的抓取频率,因此提交网址是让Google知道您的最快捷方式!
一个工具,我不能建议高度不够是Google Webmaster Tool。它可以让你看到你被抓取的频率,googlebot遇到的任何错误(断开的链接等),还有其他一些有用的工具。
原则上他们从无到有。只有当有人明确告诉他们包含他们的网站时,他们才能开始抓取该网站并使用该网站上的链接搜索更多内容。
然而,在实践中,搜索引擎的创建者(S)将投入他们能想到的一些任意站点。例如,他们自己的博客或他们在书签中拥有的网站。
理论上一个也可以只挑一些随机不会忽略,看看是否有一个网站在那里。我怀疑有人会这样做;上述方法将工作得很好,不需要额外的编码来引导搜索引擎。
- 1. 构建一个全文搜索引擎:从哪里开始
- 2. 搜索引擎没有爬行?
- 3. GTK主题引擎:从哪里开始?
- 4. 为垂直搜索引擎开发爬行器和刮板
- 5. mod_rewrite在哪里开始搜索?
- 6. 识别搜索引擎爬虫
- 7. 向搜索引擎爬虫(SEO)公开Solr的策略
- 8. 从哪里开始抓取/爬行在c + +/c#中?
- 9. 开源PHP搜索引擎
- 10. 开源云搜索引擎
- 11. 开源搜索引擎
- 12. 全文搜索SQLite引擎。我可以在哪里找到它?
- 13. P2P搜索引擎yacy:源代码在哪里?
- 14. 为什么搜索引擎爬虫不能运行JavaScript?
- 15. 使用AJAX搜索引擎在Chrome中搜索搜索引擎
- 16. 在哪里搜索?
- 17. 搜索引擎
- 18. 搜索爬行“Bot”?
- 19. 构建webapp(Rails + MySQL +?)的推荐引擎 - 从哪里开始
- 20. 从哪里可以开始学习规则引擎?
- 21. 从哪里开始写/使用3D物理模拟引擎?
- 22. JQGrid&搜索引擎索引
- 23. 哪个DB/DB引擎支持搜索?
- 24. PHP,glob()函数在哪里开始搜索文件
- 25. 在搜索引擎中自动搜索
- 26. 使用PHP检测爬网(搜索引擎访问)
- 27. 搜索引擎的典型爬取深度
- 28. AngularJS/AJAX应用程序和搜索引擎爬虫
- 29. 爬虫/搜索引擎如何遍历网络?
- 30. ASP.NET搜索引擎
这个问题似乎是题外话,因为它不是关于编程。请参阅帮助中心的[我可以询问哪些主题](http://stackoverflow.com/help/on-topic)。也许[Web Apps Stack Exchange](http://webapps.stackexchange.com/)会是一个更好的地方。 – jww 2014-08-06 00:43:19