Web爬虫会抓取Web并创建Web数据库吗?它只会创建一个可搜索的Web索引?如果假设它创建了一个索引,谁将准确地收集网页的数据并将其存储在数据库中?网络爬虫的工作是什么?
回答
虽然这个问题有点含糊让我放一些词来澄清。
Crawler发出一个URL的http请求并分析该网页的信息。举例来说,它使得一个http req。 http://www.example.com它检索页面的内容。
一旦它获得了分析它的页面内容。现在H1,H2,Pages的重要性基于这些标签,它可以了解网页的全部内容。
标识称为关键字和总结网页内容的重要/突出的话,并把它在它的索引
而且它得到的超链接,从将在其下一个跳跃用于这些网站,网页的其他网站并进一步进行。这是一个永无止境的故事。
所以无论何时一个关键字被问到,它都会从关键字数据库中看到并显示在结果中。
有时,爬网程序本身会将网页副本转储到名为缓存数据库的特殊数据库中,以便它可以用作原始数据的备用副本。
1.在第3点中,您提到了总结页面内容并将其放入其索引。关键字和页面之间的关系是如何维护的? 2.我们如何知道特定关键字仅来自该页面?它是如何实际执行的? 3.索引中包含的是什么? – user1702195 2010-08-17 14:41:16
关键字和其他元标记可以映射到URL,也可以将源自该站点的所有URL归入一个称为域名的实体下, – nepsdotin 2010-08-25 17:02:25
- 1. 网络爬虫
- 2. 网络爬虫脚本不工作的
- 3. 什么让我的网络爬虫慢?
- 4. 网络爬虫遇到什么危险?
- 5. C++网络爬虫
- 6. PHP网络爬虫
- 7. Python网络爬虫
- 8. java网络爬虫
- 9. 网络爬虫类
- 10. 网络爬虫的功能
- 11. 网络爬虫的Java
- 12. 简单的网络爬虫
- 13. Python中的网络爬虫
- 14. 自动网络爬虫
- 15. 网络爬虫,反馈?
- 16. 递归网络爬虫perl
- 17. 需要网络爬虫
- 18. 网络爬虫文本云
- 19. 硒与python网络爬虫
- 20. 网络爬虫从Android Market
- 21. 网络爬虫应用
- 22. 网络爬虫不打印
- 23. 网络爬虫提取
- 24. 制作网络爬虫/蜘蛛
- 25. 网络爬虫是否存储Cookie?
- 26. 是一个网络爬虫更合适?
- 27. 网络爬虫不div的嵌套工作
- 28. 存储URL边界并分发网络爬虫的工作?
- 29. 正则表达式不与网络爬虫工作
- 30. 针对windows的增量爬网支持的网络爬虫
如果网络爬虫可以抓取网络,网络爬虫会抓取多少网页 – 2010-08-17 02:50:12
您的问题没有提及您正在谈论的网络爬虫。因此它对于计算器来说太模糊了。 – thomasrutter 2010-08-17 02:52:29
这个问题与PHP或Python有什么关系?你想写一个吗?是否存在您想要破解的现有内容? – 2010-08-17 07:10:47