0
我做了很多网络抓取,并且对于每个项目,我发现自己正在重写一种框架/后端,它涉及将原始页面/文件保存到名称空间目录中,有时甚至是数据库以跟踪日期,错误消息等是否存在处理数据存档和存储的数据抓取框架?
我想知道是否有这样的框架已经为此类任务而构建。我并不是指实际的抓取任务本身,它是使用Nokogiri/Mechanize /等HTML解析器的组合,但是用于管理刮板和他们收集的数据。对于我所做的一些任务,数据收集有几个阶段。
例如:
- 迭代通过网站,下载
- 原始页面解析存储的原始页面,提取数据
- 清洁数据(这可以涉及到可能是不可能的其他外部进程在阶段2)
因此,任何系统,可以帮助我跟踪刮泥机何时开始,他们如何做,以及他们在哪里保存原始数据是伟大的。我想用MongoDB编写我自己的东西,但我确信有人比我做得更好。
请注意,数据挖掘是分析,而不是数据收集。 – 2012-08-12 14:58:50
Nutch将其数据存储在Solr中,如果有帮助... – 2012-08-14 18:48:42