2011-07-25 77 views
-1

我有几个关于爬虫的问题。c#基于web的爬虫

  1. 我可以创建一个纯粹在Web上工作的爬网程序吗?我的意思是,可以从Web项目的管理页面启动或停止的抓取工具。

  2. 什么是编写爬网程序最方便的语言?我打算用c#编写它。

  3. 最重要的一个:抓取工具如何工作?我的意思是,我知道你通过使用HttpWebRequestHttpWebResponse来创建它们,我猜测每次访问页面后,抓取工具都会返回,代码将评估结果,然后创建一个队列将抓取工具发送到其他网站。所以基本上,如果这些信息是真的,考虑到我将通过使用Web项目来创建爬网程序,我是否应该始终保持该页面,并且爬虫程序对于服务器的负担有多大?它会减慢服务器的速度还是对它来说是一个相对较小的工作?

我知道,这里还有不少问题,我会很感激的答案:)

+0

你们为什么给减点? – Shaokan

+2

不是一个混蛋,但如果你不知道从哪里开始(特别是选择一种语言!),你可能想重新考虑承担如此庞大而复杂的项目...... – TheCloudlessSky

+0

我正在为自己做。我只是为了爱好而编码。 – Shaokan

回答

1

1)绝对履带可以工作普尔雷在网络上。您的搜寻器可以是ASP.NET应用程序,也可以是您的管理页面可以启动或停止服务器上的任务(网络搜寻器)。

2)VB.NET或C#的作品。他们都有广泛的图书馆与网络工作。

3)我想象你正在寻找的是递归函数。首先,选择一个网页开始(包含很多链接)。对于页面中的每个链接,再次运行搜寻器的主要方法。反复做这个。你可能会想限制如何“深入”爬行。我想你也想在每个页面内做一些工作。

+0

我不会在同一页面上做任何其他工作,但会有用户浏览网站,我不希望网站工作缓慢:) – Shaokan

+0

您可以考虑查看服务器的域名。如果您进行x次呼叫,请将它们添加到队列中并稍后保存。 – user842818

+0

好吧谢谢:) – Shaokan