一個數據分析項目如何有效的進行版本控制。在哪些方面需要版本控制,哪些不需要版本控制。數據分析項目中生成的圖表該如何管理。
1 回答

幕布斯7119047
TA貢獻1794條經驗 獲得超8個贊
基本上我的方案是使用jupyter notebook
。將一些中間結果(采用Pickle儲存)和Pipeline使用的函數放在工具模塊里面,然后通過Notebook的標號來顯示版本,最后用git
來做版本控制。比如:-- project
|__ data:存放原始數據、中間數據
|__ SQL:存放原始數據所需要的SQL
|__ pickle:存放原始數據、中間數據
|__ src:存放文檔或者Notebook需要引用的圖片資源
|__ notebooks:
|__ 0.0 contents and introduction.ipnb:介紹整個項目,以及建立與下面notebook鏈接。
|__ 1.0 方案一的EDA.ipnb
|__ 1.1 方案一.ipnb
|__ 1.2 方案一評估.ipnb
|__ 2.0 方案二的EDA.ipnb
|__ ...
|__ end.0 跨方案比較結果.ipnb
|__ temp_module:寫一些要跨notebook引用的方法。
|__ README
- 1 回答
- 0 關注
- 786 瀏覽
添加回答
舉報
0/150
提交
取消