2010-08-17 62 views
0

Web爬虫会抓取Web并创建Web数据库吗?它只会创建一个可搜索的Web索引?如果假设它创建了一个索引,谁将准确地收集网页的数据并将其存储在数据库中?网络爬虫的工作是什么?

+10

如果网络爬虫可以抓取网络,网络爬虫会抓取多少网页 – 2010-08-17 02:50:12

+0

您的问题没有提及您正在谈论的网络爬虫。因此它对于计算器来说太模糊了。 – thomasrutter 2010-08-17 02:52:29

+0

这个问题与PHP或Python有什么关系?你想写一个吗?是否存在您想要破解的现有内容? – 2010-08-17 07:10:47

回答

2

虽然这个问题有点含糊让我放一些词来澄清。

  1. Crawler发出一个URL的http请求并分析该网页的信息。举例来说,它使得一个http req。 http://www.example.com它检索页面的内容。

  2. 一旦它获得了分析它的页面内容。现在H1,H2,Pages的重要性基于这些标签,它可以了解网页的全部内容。

  3. 标识称为关键字和总结网页内容的重要/突出的话,并把它在它的索引

  4. 而且它得到的超链接,从将在其下一个跳跃用于这些网站,网页的其他网站并进一步进行。这是一个永无止境的故事。

  5. 所以无论何时一个关键字被问到,它都会从关键字数据库中看到并显示在结果中。

  6. 有时,爬网程序本身会将网页副本转储到名为缓存数据库的特殊数据库中,以便它可以用作原始数据的备用副本。

+0

1.在第3点中,您提到了总结页面内容并将其放入其索引。关键字和页面之间的关系是如何维护的? 2.我们如何知道特定关键字仅来自该页面?它是如何实际执行的? 3.索引中包含的是什么? – user1702195 2010-08-17 14:41:16

+0

关键字和其他元标记可以映射到URL,也可以将源自该站点的所有URL归入一个称为域名的实体下, – nepsdotin 2010-08-25 17:02:25