0

我做了很多网络抓取,并且对于每个项目,我发现自己正在重写一种框架/后端,它涉及将原始页面/文件保存到名称空间目录中,有时甚至是数据库以跟踪日期,错误消息等是否存在处理数据存档和存储的数据抓取框架?

我想知道是否有这样的框架已经为此类任务而构建。我并不是指实际的抓取任务本身,它是使用Nokogiri/Mechanize /等HTML解析器的组合,但是用于管理刮板和他们收集的数据。对于我所做的一些任务,数据收集有几个阶段。

例如:

  1. 迭代通过网站,下载
  2. 原始页面解析存储的原始页面,提取数据
  3. 清洁数据(这可以涉及到可能是不可能的其他外部进程在阶段2)

因此,任何系统,可以帮助我跟踪刮泥机何时开始,他们如何做,以及他们在哪里保存原始数据是伟大的。我想用MongoDB编写我自己的东西,但我确信有人比我做得更好。

+0

请注意,数据挖掘是分析,而不是数据收集。 – 2012-08-12 14:58:50

+0

Nutch将其数据存储在Solr中,如果有帮助... – 2012-08-14 18:48:42

回答

0

我知道irobotsoft刮刀解决了所有这些问题。它有很多功能来清理html页面和存储数据,内置的排序和数据库操作内置在一个简单的用户界面中。

此外,它是免费的。