1
我为一家研究机构工作,提供由另一家机构管理的基于网络的数据管理系统。我可以从该系统下载基础数据作为CSV文件的集合。使用R
和knitr
,我已经在这些文件之上构建了一个适度复杂的报告系统。但是每隔一段时间,另一个机构就会改变数据提取的格式,并炸毁我的报告(或者更糟糕的是,它会以一种我几周没有注意到的微妙而邪恶的方式来改变它)。如何检查新数据摘录是否具有相同的结构?
当这些事情发生时,他们可能永远不会通知我,所以我想我应该进行更多的测试。我想首先测试一下那些CSV文件每次都有相同的结构(但是在我们收集更多数据时允许不同数量的行)。什么是最好的方式来做到这一点? R
是我的首选工具,但我有兴趣听到其他人(这是免费的,在Windows上)。谢谢!
谢谢 - 这看起来不错。并感谢提醒我澄清,行数每天都在变化。 –