我们经常在一个项目中处理一个大型数据集(比如说少数每个1GB的文件),并且正在编写代码来分析它。Git +一个大型数据集?
所有的分析代码都在Git中,所以每个人都可以检查进出中央存储库的更改。但是如何处理代码正在使用的数据集呢?
我想在库中的数据:
- 当用户首次克隆库,该数据应该有。
- 该数据不是100%只读;现在然后数据点被纠正,或者发生小的格式更改。如果数据发生细微变化,应在下次结账时通知用户。
不过,我不想在git仓库中的数据:
- 混帐克隆一个备用副本(所以我在我的主目录两个版本)将拉动数据我的几个GB已经有。我宁愿将它放在一个固定的位置[设置一个规则,即数据必须在〜/数据中]或根据需要添加链接。
- 由于存储库中的数据可能无法复制到一个拇指驱动器,这在我正在处理一百行代码时很烦人。
- 如果修正了错误的数据点,我再也不会去查看错误的版本。对数据集的更改可以使用纯文本文件或提供数据的人员进行跟踪(或根本不需要)。
看来我需要一个主代码库和一个辅助数据库的设置。任何建议或窍门优雅地实现这一点,无论是在git或POSIX中?我想过的每件事都是以某种方式或某种方式进行的。
该链接已过时。我认为它现在应该是http://git-scm.com/book/en/v2/Git-Tools-Submodules。 – 2014-12-30 07:41:57
完成。感谢您的评论。 – 2015-01-13 00:43:00
我认为保持大型数据集,特别是如果它们没有改变,在git是矫枉过正。将数据集保持在git之外,并使用简单的脚本来复制源数据或从wget或ftp数据将是最佳选择。 – cpbills 2017-02-02 21:34:13