2010-10-18 63 views
2

我需要一个库(希望在C#中!)作为一个Web爬虫来访问HTTP文件和FTP文件。原则上,我很喜欢阅读HTML,我想将它扩展为PDF,WORD等。C#web和ftp爬虫库

我很满意初学者的开源软件或至少是任何文档说明。

+0

你可能想看看我的实现。 https://stackoverflow.com/a/16975398/1610747 – Misterhex 2017-06-15 02:02:06

回答

4

检查NCrawler项目

简单,非常高效的多线程网络爬虫用C#编写的基于流水线处理。包含HTML,文本,PDF和IFilter文档处理器和语言检测(Google)。轻松添加管道步骤来提取,使用和更改信息。

+0

+1:非常好的建议,我会给它一些测试,看看它是否可以帮助我。乍一看似乎如此。 – 2010-10-19 14:26:56

+0

为你做了这项工作?因为我现在正在寻找类似的。 – 2011-03-30 09:57:55

+0

是的,该项目是相当不错..我最终使用了其他非常具体的需求,但NCrawler做得非常好,它的设计很好 – 2012-04-06 06:31:37

1

我开发了Crawler-Lib Framework的Crawler Engine。这是一个支持工作流的爬虫程序,可以轻松扩展以执行任何类型的请求,甚至是您想要的处理。

这里是发动机: http://www.crawler-lib.net/crawler-lib-engine

以下是一些YouTube视频,显示出履带库引擎是如何工作的: http://www.youtube.com/user/CrawlerLib

我知道这个项目是不开源的,但有一个免费的版。