2017-08-09 38 views
0

我一直在研究一个SAS ETL项目,在这个项目中,我们首先从每月开始的teradata仓库提取上个月的数据,然后再进一步处理。SAS数据集市文件结构建议

这是通过每个表格的提取脚本完成的,然后将数据存储到每月文件夹结构(yyyymm)中。以这种方式工作了好几个月后,我们现在已经开始收到产品每日,每周等提取物的请求。 当前数据存储文件夹结构为:

Library/Data/YYYYMM文件夹位于一个库中。

我必须改变结构(影响最小当前的结构),以适应不同的时间表要求,是每天,每周,每两周,每季度等

我想到了两个选项:在目前的结构(每月的文件夹),加入

  • 每日,每周和每月的文件夹
  • 库/ YYYYMM /月
  • 库/ YYYYMM /每日
  • Library/YYYYMM /每周

文件夹。

选项2: 根据数据库就像创建文件夹

  • 每月
  • 日报
  • 周刊
  • 每两周
  • 季度

在每一种存在个别与th的文件夹当前日期/月/季度。

任何人都可以提出任何其他更实际的设计方法吗?

回答

0

也许SAS生成数据集将是一种选择:http://support.sas.com/documentation/cdl/en/lrcon/62955/HTML/default/viewer.htm#a000934566.htm

在这里从SAS的提取物:

甲代数据集是SAS数据集的存档版本被存储作为其一部分一代人群。每次更换文件时都会创建一代数据集。生成组中的每一代数据集具有相同的根成员名称,但每个数据都有不同的版本号。生成数据集的最新版本称为基本版本。

+0

感谢您的回复Zuluk,但这会像现在的过程更复杂。我想添加一个新的文件结构,并对现有进程进行最小更新。你可否建议任何其他选项添加周期性数据集? – Rhea

+0

不,不过,您的第一个选项在我看来是最适用的选项。 – zuluk