-
?數據診斷的目的
? 1.了解特征的分布,缺失和異常等情況
? 2.統計指標課直接用于數據與處理
查看全部 -
先安裝好python。numpy包。pandas包。scipy包
查看全部 -
課程目標啊
查看全部 -
基本描述統計:
##1.Basic Analysis##
#(1)Missing Value#
missSet=[np. nan,9999999999,-999999)? (#獲取缺失值,使用numpy的nan,事先知道缺失值如9999999,-99999)
#(2)Count distinct#
Len(df.iloc[:,0].unique())(#對異常值的計數,[:,0]表示所有列的第一列開始,然后找到不同值,再計數)
count_un = df.iloc[:,0:3].apply ( Lambda x: len(x.unique()))(#如果是多列采用這個形式:apply 函數遍歷每一列)
#(3)Zero values#
np. Sum(df. iloc[:,0] ==0)(#還是以第一列為例,找到等于0的,然后將true相加)
count_zero = df.iloc[:,0:3] .apply ( Lambda x:np.sum(x==0))(#還是對多列中等于0的加和)
查看全部 -
統計常規指標:
1.均值、中位數、最大值、最小值等
2.計數類(如統計某值出現多少)
3.缺失值和方差等(方差太小沒有區分度,缺失值太多也一樣)
分位點、值得頻數等(不同的分位點的值相同的情況下,需要關注一下!值得頻數就是統計最經常出現的值是誰,有什么比例等)
查看全部 -
數據的診斷:
數據的獲取與讀取:
數據的獲?。篕aggle.
數據的讀?。?/p>
數據的鏈接:https://www.kaggle.com/c/santander-customer-satisfaction
公式的提供:Santander(提供不滿意用戶,使用調查對因變量分析進而建立模型獲取不滿意
查看全部 -
numpy: 對數組向量化;
pandas: 把數據讀成dataframe形式,讀寫
scipy: 計算,函數,眾數等計算
1、編碼
2、導入division返回值是一個浮點型的數
3、導入pd,np,scipy中的stats函數
查看全部 -
數據診斷的主要指標
查看全部 -
依賴包:
Numpy
Pandas
Scipy
查看全部 -
開始學習的第一天
查看全部 -
基本描述統計:
##1.Basic Analysis##
#(1)Missing Value#
missSet=[np. nan,9999999999,-999999)? (#獲取缺失值,使用numpy的nan,事先知道缺失值如9999999,-99999)
#(2)Count distinct#
Len(df.iloc[:,0].unique())(#對異常值的計數,[:,0]表示所有列的第一列開始,然后找到不同值,再計數)
count_un = df.iloc[:,0:3].apply ( Lambda x: len(x.unique()))(#如果是多列采用這個形式:apply 函數遍歷每一列)
#(3)Zero values#
np. Sum(df. iloc[:,0] ==0)(#還是以第一列為例,找到等于0的,然后將true相加)
count_zero = df.iloc[:,0:3] .apply ( Lambda x:np.sum(x==0))(#還是對多列中等于0的加和)
查看全部 -
統計常規指標:
1.均值、中位數、最大值、最小值等
2.計數類(如統計某值出現多少)
3.缺失值和方差等(方差太小沒有區分度,缺失值太多也一樣)
分位點、值得頻數等(不同的分位點的值相同的情況下,需要關注一下!值得頻數就是統計最經常出現的值是誰,有什么比例等)
查看全部 -
數據的診斷:
數據的獲取與讀取:
數據的獲?。篕aggle.
數據的讀取:
數據的鏈接:https://www.kaggle.com/c/santander-customer-satisfaction
公式的提供:Santander(提供不滿意用戶,使用調查對因變量分析進而建立模型獲取不滿意客戶)
下面進行一個數據的讀?。?/span>
##0.Read Data##
df =pd.read_csv("./data/train. csv")? ? #獲取要讀取的文件格式并命名為df;#csv是第一行代碼讀取的格式;./data/train. csv這個路徑也是可以根據自己保存的不同進行更改的。
label = df ['TARGET']? ?#將要預測的目標名稱賦值給lable;
#要預測的目標label,TARGET是要預測目標的名字
df=df.drop( ['ID, 'TARGET'], axis=1)? ?#將不需要的列給刪除掉;
?#將不需要的變量刪掉,axis=1表示軸=1;?(['ID, 'TARGET'], axis=1)表示刪除ID和TARGET這兩列。
查看全部 -
依賴包:
Numpy、Pandas、Scripy
依賴包的導入:(一般采用)
#-*-coding:utf-8_*_
from? _future_? import division?
import pandas as pd?
import numpy as np?
from scipy import stats查看全部 -
from _future_ import division?確保一個數除以另外一個數不等于0,會返回一個浮點型的數
查看全部
舉報