我有几个关于爬虫的问题。c#基于web的爬虫
我可以创建一个纯粹在Web上工作的爬网程序吗?我的意思是,可以从Web项目的管理页面启动或停止的抓取工具。
什么是编写爬网程序最方便的语言?我打算用c#编写它。
最重要的一个:抓取工具如何工作?我的意思是,我知道你通过使用
HttpWebRequest
和HttpWebResponse
来创建它们,我猜测每次访问页面后,抓取工具都会返回,代码将评估结果,然后创建一个队列将抓取工具发送到其他网站。所以基本上,如果这些信息是真的,考虑到我将通过使用Web项目来创建爬网程序,我是否应该始终保持该页面,并且爬虫程序对于服务器的负担有多大?它会减慢服务器的速度还是对它来说是一个相对较小的工作?
我知道,这里还有不少问题,我会很感激的答案:)
你们为什么给减点? – Shaokan
不是一个混蛋,但如果你不知道从哪里开始(特别是选择一种语言!),你可能想重新考虑承担如此庞大而复杂的项目...... – TheCloudlessSky
我正在为自己做。我只是为了爱好而编码。 – Shaokan