是否存在处理数据存档和存储的数据抓取框架？

我做了很多网络抓取，并且对于每个项目，我发现自己正在重写一种框架/后端，它涉及将原始页面/文件保存到名称空间目录中，有时甚至是数据库以跟踪日期，错误消息等是否存在处理数据存档和存储的数据抓取框架？

我想知道是否有这样的框架已经为此类任务而构建。我并不是指实际的抓取任务本身，它是使用Nokogiri/Mechanize /等HTML解析器的组合，但是用于管理刮板和他们收集的数据。对于我所做的一些任务，数据收集有几个阶段。

例如：

因此，任何系统，可以帮助我跟踪刮泥机何时开始，他们如何做，以及他们在哪里保存原始数据是伟大的。我想用MongoDB编写我自己的东西，但我确信有人比我做得更好。

2012-08-11 Zando

请注意，数据挖掘是分析，而不是数据收集。 – 2012-08-12 14:58:50

Nutch将其数据存储在Solr中，如果有帮助... – 2012-08-14 18:48:42

我知道irobotsoft刮刀解决了所有这些问题。它有很多功能来清理html页面和存储数据，内置的排序和数据库操作内置在一个简单的用户界面中。

此外，它是免费的。

2012-08-21 20:09:00 seagulf

回答