1

想象一下,您正在处理大量数据集,并将其分发到一堆CSV文件中。您打开一个IPython笔记本并浏览内容,进行一些转换,重新排序和清理数据。如何在使用IPython笔记本时管理复杂性?

然后你开始做一些数据实验,创建更多的笔记本,并最终发现自己堆满了一堆不同的笔记本,这些笔记本中埋有数据转换管道。

如何以这样的方式组织数据探索/变换/学习 - 从 - 它的过程,即:

  • 复杂性不吹,逐步提高;
  • 保持您的代码库可管理和可导航;
  • 能够重现和调整数据转换管道吗?

回答

1

那么,我现在有这个问题,然后在处理大量数据时。复杂性是我学会生活的东西,有时很难让事情变得简单。

什么,我认为帮助的我很多是把所有的Git仓库,如果管理得好,并与写得很好的消息,你可以轻松地跟踪改造您的数据频繁的提交。

每次我做一些测试,我创建一个新的分支并做我的工作。如果它无处不在,我只能回到我的主分支并继续工作,但如果需要,我所做的工作仍可供参考。

如果它导致一些有用的东西,我只是将它合并到我的主分支,并继续工作新的测试,根据需要制作新的分支。

我不认为它会回答你所有的问题,也不知道你是否已经在你的笔记本中使用了某种版本控制,但是这对我有很大的帮助,当我使用jupyter -notebooks。