1
想象一下,您正在处理大量数据集,并将其分发到一堆CSV文件中。您打开一个IPython笔记本并浏览内容,进行一些转换,重新排序和清理数据。如何在使用IPython笔记本时管理复杂性?
然后你开始做一些数据实验,创建更多的笔记本,并最终发现自己堆满了一堆不同的笔记本,这些笔记本中埋有数据转换管道。
如何以这样的方式组织数据探索/变换/学习 - 从 - 它的过程,即:
- 复杂性不吹,逐步提高;
- 保持您的代码库可管理和可导航;
- 能够重现和调整数据转换管道吗?