我有一些数据文件从具有以下格式的数据仓库处理:如何在Ruby中抓取,分析和抓取文件?
:header 1 ...
:header n
# remarks 1 ...
# remarks n
# column header 1
# column header 2
DATA ROWS
(Example: "#### ## ## ##### ######## ####### ###afp## ##e###")
的数据通过空格分开并有数字和其他字符的ASCII。这些数据中的一部分将被拆分并变得更有意义。
所有的数据将进入一个数据库,最初一个SQLite数据库进行开发,然后推到另一个,更持久,存储。
这些文件将在实际上是通过HTTP从远程服务器拉,我将不得不爬一点得到一些吧,因为他们跨越文件夹和许多文件。
我希望得到一些输入的最佳工具和方法可以完成这一任务的“红宝石路”,以及抽象出一些这方面的东西。否则,我会解决它,可能类似于我以前在Perl或其他此类方法中的处理方式。
我一直在想着用OpenURI
来打开每个url,然后如果输入的是HTML收集链接来抓取,否则处理数据。我会使用String.scan
将文件每次适当地拆分成一个多维数组,根据数据提供者建立的格式解析每个组件。完成后,将数据推入数据库。移至下一个输入文件/ uri。冲洗并重复。
我想我必须失去一些库,那些更有经验将使用清洁/加快这一进程的显着,使剧本更对其他数据集重用灵活。
此外,我将图形和可视化这一数据以及生成报表,因此,或许应该太考虑。
任何输入可能是更好的方法或库只是这样吗?
你可以用“#### ## ##”之类的东西来拆分行。split(/ \ s + /)你可能想要活动记录来做db插入 – pguardiario
好点,我认为你是现货关于ActiveRecord。 – ylluminate
另请参阅:http://stackoverflow.com/questions/4981379/what-are-some-good-ruby-based-web-crawlers –