我需要一个库(希望在C#中!)作为一个Web爬虫来访问HTTP文件和FTP文件。原则上,我很喜欢阅读HTML,我想将它扩展为PDF,WORD等。C#web和ftp爬虫库
我很满意初学者的开源软件或至少是任何文档说明。
我需要一个库(希望在C#中!)作为一个Web爬虫来访问HTTP文件和FTP文件。原则上,我很喜欢阅读HTML,我想将它扩展为PDF,WORD等。C#web和ftp爬虫库
我很满意初学者的开源软件或至少是任何文档说明。
检查NCrawler项目
简单,非常高效的多线程网络爬虫用C#编写的基于流水线处理。包含HTML,文本,PDF和IFilter文档处理器和语言检测(Google)。轻松添加管道步骤来提取,使用和更改信息。
+1:非常好的建议,我会给它一些测试,看看它是否可以帮助我。乍一看似乎如此。 – 2010-10-19 14:26:56
为你做了这项工作?因为我现在正在寻找类似的。 – 2011-03-30 09:57:55
是的,该项目是相当不错..我最终使用了其他非常具体的需求,但NCrawler做得非常好,它的设计很好 – 2012-04-06 06:31:37
我开发了Crawler-Lib Framework的Crawler Engine。这是一个支持工作流的爬虫程序,可以轻松扩展以执行任何类型的请求,甚至是您想要的处理。
这里是发动机: http://www.crawler-lib.net/crawler-lib-engine
以下是一些YouTube视频,显示出履带库引擎是如何工作的: http://www.youtube.com/user/CrawlerLib
我知道这个项目是不开源的,但有一个免费的版。
你可能想看看我的实现。 https://stackoverflow.com/a/16975398/1610747 – Misterhex 2017-06-15 02:02:06