c＃基于web的爬虫

-1

我有几个关于爬虫的问题。c＃基于web的爬虫

我可以创建一个纯粹在Web上工作的爬网程序吗？我的意思是，可以从Web项目的管理页面启动或停止的抓取工具。
什么是编写爬网程序最方便的语言？我打算用c＃编写它。
最重要的一个：抓取工具如何工作？我的意思是，我知道你通过使用HttpWebRequest和HttpWebResponse来创建它们，我猜测每次访问页面后，抓取工具都会返回，代码将评估结果，然后创建一个队列将抓取工具发送到其他网站。所以基本上，如果这些信息是真的，考虑到我将通过使用Web项目来创建爬网程序，我是否应该始终保持该页面，并且爬虫程序对于服务器的负担有多大？它会减慢服务器的速度还是对它来说是一个相对较小的工作？

我知道，这里还有不少问题，我会很感激的答案:)

2011-07-25 Shaokan

你们为什么给减点？ – Shaokan

不是一个混蛋，但如果你不知道从哪里开始（特别是选择一种语言！），你可能想重新考虑承担如此庞大而复杂的项目...... – TheCloudlessSky

我正在为自己做。我只是为了爱好而编码。 – Shaokan

1）绝对履带可以工作普尔雷在网络上。您的搜寻器可以是ASP.NET应用程序，也可以是您的管理页面可以启动或停止服务器上的任务（网络搜寻器）。

2）VB.NET或C＃的作品。他们都有广泛的图书馆与网络工作。

3）我想象你正在寻找的是递归函数。首先，选择一个网页开始（包含很多链接）。对于页面中的每个链接，再次运行搜寻器的主要方法。反复做这个。你可能会想限制如何“深入”爬行。我想你也想在每个页面内做一些工作。

2011-07-25 14:12:08 user842818

我不会在同一页面上做任何其他工作，但会有用户浏览网站，我不希望网站工作缓慢:) – Shaokan

您可以考虑查看服务器的域名。如果您进行x次呼叫，请将它们添加到队列中并稍后保存。 – user842818

好吧谢谢:) – Shaokan

回答