C＃web和ftp爬虫库

我需要一个库（希望在C＃中！）作为一个Web爬虫来访问HTTP文件和FTP文件。原则上，我很喜欢阅读HTML，我想将它扩展为PDF，WORD等。C＃web和ftp爬虫库

我很满意初学者的开源软件或至少是任何文档说明。

你可能想看看我的实现。 https://stackoverflow.com/a/16975398/1610747 – Misterhex 2017-06-15 02:02:06

检查NCrawler项目

简单，非常高效的多线程网络爬虫用C＃编写的基于流水线处理。包含HTML，文本，PDF和IFilter文档处理器和语言检测（Google）。轻松添加管道步骤来提取，使用和更改信息。

2010-10-18 18:43:03

+1：非常好的建议，我会给它一些测试，看看它是否可以帮助我。乍一看似乎如此。 – 2010-10-19 14:26:56

为你做了这项工作？因为我现在正在寻找类似的。 – 2011-03-30 09:57:55

是的，该项目是相当不错..我最终使用了其他非常具体的需求，但NCrawler做得非常好，它的设计很好 – 2012-04-06 06:31:37

我开发了Crawler-Lib Framework的Crawler Engine。这是一个支持工作流的爬虫程序，可以轻松扩展以执行任何类型的请求，甚至是您想要的处理。

以下是一些YouTube视频，显示出履带库引擎是如何工作的： http://www.youtube.com/user/CrawlerLib

我知道这个项目是不开源的，但有一个免费的版。

2013-12-28 08:50:04

回答