亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

Python制作數據分析工具

Alex_Cen 產品經理
難度初級
時長 1小時10分
學習人數
綜合評分9.17
20人評價 查看評價
9.2 內容實用
9.1 簡潔易懂
9.2 邏輯清晰
  • ?數據診斷的目的

    ? 1.了解特征的分布,缺失和異常等情況

    ? 2.統計指標課直接用于數據與處理

    查看全部
    0 采集 收起 來源:1.2 案例介紹

    2019-03-19

  • 先安裝好python。numpy包。pandas包。scipy包

    查看全部
    0 采集 收起 來源:1.2 案例介紹

    2019-02-24

  • 課程目標啊

    查看全部
  • 基本描述統計:

    ##1.Basic Analysis##
    #(1)Missing Value#

    missSet=[np. nan,9999999999,-999999)? (#獲取缺失值,使用numpy的nan,事先知道缺失值如9999999,-99999)
    #(2)Count distinct#
    Len(df.iloc[:,0].unique())

    (#對異常值的計數,[:,0]表示所有列的第一列開始,然后找到不同值,再計數)
    count_un = df.iloc[:,0:3].apply ( Lambda x: len(x.unique()))

    (#如果是多列采用這個形式:apply 函數遍歷每一列)
    #(3)Zero values#
    np. Sum(df. iloc[:,0] ==0)

    (#還是以第一列為例,找到等于0的,然后將true相加)
    count_zero = df.iloc[:,0:3] .apply ( Lambda x:np.sum(x==0))

    (#還是對多列中等于0的加和)


    查看全部
  • 統計常規指標:

    1.均值、中位數、最大值、最小值等

    2.計數類(如統計某值出現多少)

    3.缺失值和方差等(方差太小沒有區分度,缺失值太多也一樣)

    分位點、值得頻數等(不同的分位點的值相同的情況下,需要關注一下!值得頻數就是統計最經常出現的值是誰,有什么比例等)


    查看全部
  • 數據的診斷:

    數據的獲取與讀取:

    數據的獲?。篕aggle.

    數據的讀?。?/p>

    數據的鏈接:https://www.kaggle.com/c/santander-customer-satisfaction

    公式的提供:Santander(提供不滿意用戶,使用調查對因變量分析進而建立模型獲取不滿意


    查看全部
  • numpy: 對數組向量化;

    pandas: 把數據讀成dataframe形式,讀寫

    scipy: 計算,函數,眾數等計算

    1、編碼

    2、導入division返回值是一個浮點型的數

    3、導入pd,np,scipy中的stats函數


    查看全部
  • https://img1.sycdn.imooc.com//5bfecb60000128cc08500567.jpg數據診斷的主要指標

    查看全部
  • 依賴包:

    Numpy

    Pandas

    Scipy

    查看全部
  • 開始學習的第一天

    查看全部
  • 基本描述統計:

    ##1.Basic Analysis##
    #(1)Missing Value#

    missSet=[np. nan,9999999999,-999999)? (#獲取缺失值,使用numpy的nan,事先知道缺失值如9999999,-99999)
    #(2)Count distinct#
    Len(df.iloc[:,0].unique())

    (#對異常值的計數,[:,0]表示所有列的第一列開始,然后找到不同值,再計數)
    count_un = df.iloc[:,0:3].apply ( Lambda x: len(x.unique()))

    (#如果是多列采用這個形式:apply 函數遍歷每一列)
    #(3)Zero values#
    np. Sum(df. iloc[:,0] ==0)

    (#還是以第一列為例,找到等于0的,然后將true相加)
    count_zero = df.iloc[:,0:3] .apply ( Lambda x:np.sum(x==0))

    (#還是對多列中等于0的加和)

    查看全部
  • 統計常規指標:

    1.均值、中位數、最大值、最小值等

    2.計數類(如統計某值出現多少)

    3.缺失值和方差等(方差太小沒有區分度,缺失值太多也一樣)

    分位點、值得頻數等(不同的分位點的值相同的情況下,需要關注一下!值得頻數就是統計最經常出現的值是誰,有什么比例等)


    查看全部
  • 數據的診斷:

    數據的獲取與讀取:

    數據的獲?。篕aggle.

    數據的讀取:

    數據的鏈接:https://www.kaggle.com/c/santander-customer-satisfaction

    公式的提供:Santander(提供不滿意用戶,使用調查對因變量分析進而建立模型獲取不滿意客戶)

    下面進行一個數據的讀?。?/span>

    ##0.Read Data##
    df =pd.read_csv("./data/train. csv")? ? #獲取要讀取的文件格式并命名為df;

    #csv是第一行代碼讀取的格式;./data/train. csv這個路徑也是可以根據自己保存的不同進行更改的。

    label = df ['TARGET']? ?#將要預測的目標名稱賦值給lable;

    #要預測的目標label,TARGET是要預測目標的名字

    df=df.drop( ['ID, 'TARGET'], axis=1)? ?#將不需要的列給刪除掉;

    ?#將不需要的變量刪掉,axis=1表示軸=1;?(['ID, 'TARGET'], axis=1)表示刪除ID和TARGET這兩列。


    查看全部
  • 依賴包:

    Numpy、Pandas、Scripy

    依賴包的導入:(一般采用)

    #-*-coding:utf-8_*_
    from? _future_? import division?
    import pandas as pd?
    import numpy as np?
    from scipy import stats


    查看全部
  • from _future_ import division?確保一個數除以另外一個數不等于0,會返回一個浮點型的數

    查看全部

舉報

0/150
提交
取消
課程須知
適合人群:希望從傳統分析人員轉型到數據挖掘和機器學習領域的人員;技術儲備:python基本知識,統計學基本知識
老師告訴你能學到什么?
1.用Python制作一個高效的數據診斷工具; 2.數據診斷的各種指標;

微信掃碼,參與3人拼團

微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

友情提示:

您好,此課程屬于遷移課程,您已購買該課程,無需重復購買,感謝您對慕課網的支持!