-
統計常規指標:
1.均值、中位數、最大值、最小值等
2.計數類(如統計某值出現多少)
3.缺失值和方差等(方差太小沒有區分度,缺失值太多也一樣)
4. 分位點、值得頻數等(不同的分位點的值相同的情況下,需要關注一下!值得頻數就是統計最經常出現的值是誰,有什么比例等)
查看全部 -
數據的讀取
查看全部 -
數據? 診斷
查看全部 -
依賴包的導入
查看全部 -
數據分析依賴包
查看全部 -
數據診斷的目的
查看全部 -
1.?數據診斷的目的:
1)?了解特征的分布,缺失和異常等情況。(了解了這些情況我們才能更好地做特征工程和數據預處理)
2)統計指標可直接用于數據預處理
數據預處理就是指比如說特征缺失值的填充,缺失值的填充是建模常用的手段。填充的目的有很多。在填充的時候大家一般會采用很多種辦法。比如填一個0,-1,1這種常值進去,但是更多的人可能會填一些統計值,比如說中位數、眾數這樣的值進去。如果要用這種方法填數的話,一般需要對特征值重新計算一遍,如果每次都計算的話,這樣會影響整個模型的效率。更好的辦法:就是可以從前面預處理的過程和結果中把中位數和眾數取到,直接填到缺失里面去,這樣可以減少運行計算時間,因為我們只需要提取,不需要計算,這樣的話會減少耗時。除了這個以外,我們也有很多的判斷,比如數缺失值的比例,眾數的比例,也是形容特征工程的一個環節。當我們整個建模的流程形成之后,這些數據診斷的結果也可以起到判斷的作用。
查看全部 -
數據? 診斷
查看全部 -
依賴包包括:Numpy,Pandas,Scipy
查看全部 -
了解特征分布,缺失和異常
統計指標可直接用于數據預處理
查看全部 -
清洗數據,是必要之必要的,準備步驟要做好
查看全部 -
為了更高效地學習,這次嘗試從結果出發來學習 python,看不懂的部分,回頭再查找入門課程。
依賴包-待安裝
特殊值、描述值-待查概念
查看全部 -
1.缺失值不應該存在于EDA中。缺失值是通過分析得出來的。
2.數據導入-》數據分析-》工具
查看全部 -
1.# 2.Calculating Running time
import timeit
?
start = timeit.default_timer()
df_eda_summary = eda_analysis(missSet=[np.nan, 9999999999, -999999], df=df.iloc[:, 0:3])
print('EDA Running Time: {0:.2f} seconds'.format(timeit.default_timer() - start))
上面是時間的測試示例,我們去測試每一塊所用時間,由此可以判斷我們的優化重點,經過測試可知,眾數部分的時間較長,所以我們后期可對這一部分進行優化,優化的方法有:1)注釋掉沒用的代碼 2)使用更好的方法去替代原有方法。
查看全部 -
1.整合核心代碼:?
# 12.Combine All Information
????df_eda_summary = pd.concat(
????????[count_un, count_zero, df_mean, df_median, df_mode,
?????????df_mode_count, df_mode_perct, df_min, df_max, df_fre,
?????????df_miss], axis=1
????)
????# 左邊是特征,上邊是有多少統計描述,就拼多少
查看全部
舉報