国产l精品一区二区三区,天天干狠狠擼天天擼,亚洲男人天堂网久草

首頁免費課 Python制作數據分析工具筆記

Python制作數據分析工具

最熱最新

StupidCat_W

?數據診斷的目的
? 1.了解特征的分布，缺失和異常等情況
? 2.統計指標課直接用于數據與處理

查看全部

0 采集收起來源：1.2 案例介紹
2019-03-19
peppas

先安裝好python。numpy包。pandas包。scipy包

查看全部

0 采集收起來源：1.2 案例介紹
2019-02-24
weibo_我是LUFFCIER_0 01:39

課程目標啊

查看全部

0 采集收起來源：1.1 數據診斷介紹
2019-01-02
滕玉龍

基本描述統計：
##1.Basic Analysis##
#(1)Missing Value#
missSet=[np. nan,9999999999,-999999)? （#獲取缺失值，使用numpy的nan，事先知道缺失值如9999999，-99999）
#(2)Count distinct#
Len(df.iloc[:,0].unique())
（#對異常值的計數，[:,0]表示所有列的第一列開始，然后找到不同值，再計數）
count_un = df.iloc[:,0:3].apply ( Lambda x: len(x.unique()))
（#如果是多列采用這個形式：apply 函數遍歷每一列）
#(3)Zero values#
np. Sum(df. iloc[:,0] ==0)
（#還是以第一列為例，找到等于0的，然后將true相加）
count_zero = df.iloc[:,0:3] .apply ( Lambda x:np.sum(x==0))
（#還是對多列中等于0的加和）

查看全部

0 采集收起來源：3.1 描述統計-計數類(代碼演示)
2018-12-09
滕玉龍

統計常規指標：
1.均值、中位數、最大值、最小值等
2.計數類（如統計某值出現多少）
3.缺失值和方差等（方差太小沒有區分度，缺失值太多也一樣）
分位點、值得頻數等（不同的分位點的值相同的情況下，需要關注一下！值得頻數就是統計最經常出現的值是誰，有什么比例等）

查看全部

0 采集收起來源：2.3 統計指標介紹
2018-12-09
滕玉龍

數據的診斷：
數據的獲取與讀?。?/p>
數據的獲取：Kaggle.
數據的讀?。?/p>
數據的鏈接：https://www.kaggle.com/c/santander-customer-satisfaction
公式的提供：Santander（提供不滿意用戶，使用調查對因變量分析進而建立模型獲取不滿意

查看全部

0 采集收起來源：2.2 數據獲取與數據讀取
2018-12-09
滕玉龍 00:31

numpy:　對數組向量化；
pandas:　把數據讀成dataframe形式，讀寫
scipy:　計算，函數，眾數等計算
1、編碼
2、導入division返回值是一個浮點型的數
3、導入pd，np，scipy中的stats函數

查看全部

0 采集收起來源：2.1 依賴包的介紹
2018-12-09
weixin_慕勒9292892

數據診斷的主要指標

查看全部

0 采集收起來源：2.3 統計指標介紹
2018-11-29
weixin_慕勒9292892

依賴包：
Numpy
Pandas
Scipy

查看全部

0 采集收起來源：2.1 依賴包的介紹
2018-11-29
慕勒9334872

開始學習的第一天

查看全部

0 采集收起來源：1.1 數據診斷介紹
2018-11-18
左玉晶

基本描述統計：
##1.Basic Analysis##
#(1)Missing Value#
missSet=[np. nan,9999999999,-999999)? （#獲取缺失值，使用numpy的nan，事先知道缺失值如9999999，-99999）
#(2)Count distinct#
Len(df.iloc[:,0].unique())
（#對異常值的計數，[:,0]表示所有列的第一列開始，然后找到不同值，再計數）
count_un = df.iloc[:,0:3].apply ( Lambda x: len(x.unique()))
（#如果是多列采用這個形式：apply 函數遍歷每一列）
#(3)Zero values#
np. Sum(df. iloc[:,0] ==0)
（#還是以第一列為例，找到等于0的，然后將true相加）
count_zero = df.iloc[:,0:3] .apply ( Lambda x:np.sum(x==0))
（#還是對多列中等于0的加和）

查看全部

0 采集收起來源：3.1 描述統計-計數類(代碼演示)
2018-11-14
左玉晶

統計常規指標：
1.均值、中位數、最大值、最小值等
2.計數類（如統計某值出現多少）
3.缺失值和方差等（方差太小沒有區分度，缺失值太多也一樣）
分位點、值得頻數等（不同的分位點的值相同的情況下，需要關注一下！值得頻數就是統計最經常出現的值是誰，有什么比例等）

查看全部

0 采集收起來源：2.3 統計指標介紹
2018-11-13
左玉晶

數據的診斷：
數據的獲取與讀?。?/p>
數據的獲取：Kaggle.
數據的讀?。?/p>
數據的鏈接：https://www.kaggle.com/c/santander-customer-satisfaction
公式的提供：Santander（提供不滿意用戶，使用調查對因變量分析進而建立模型獲取不滿意客戶）
下面進行一個數據的讀?。?/span>
##0.Read Data##
df =pd.read_csv("./data/train. csv")? ? #獲取要讀取的文件格式并命名為df;
#csv是第一行代碼讀取的格式；./data/train. csv這個路徑也是可以根據自己保存的不同進行更改的。
label = df ['TARGET']? ?#將要預測的目標名稱賦值給lable；
#要預測的目標label，TARGET是要預測目標的名字
df=df.drop( ['ID, 'TARGET'], axis=1)? ?#將不需要的列給刪除掉；
?#將不需要的變量刪掉，axis=1表示軸=1；?（['ID, 'TARGET'], axis=1）表示刪除ID和TARGET這兩列。

查看全部

0 采集收起來源：2.2 數據獲取與數據讀取
2018-11-13
左玉晶

依賴包：
Numpy、Pandas、Scripy
依賴包的導入：（一般采用）
#-*-coding:utf-8_*_
from? _future_? import division?
import pandas as pd?
import numpy as np?
from scipy import stats

查看全部

0 采集收起來源：2.1 依賴包的介紹
2018-11-13
qq_半字淺眉_1

from _future_ import division?確保一個數除以另外一個數不等于0，會返回一個浮點型的數

查看全部

0 采集收起來源：2.1 依賴包的介紹
2018-09-06