亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

【機器學習】【數據處理】Pandas 處理缺失值

標簽:
機器學習

目前很多流行的数据集都会存在数据缺失的现象。

一般我们在用Pandas处理缺失值的方法有两种:

           1.用覆盖全局的掩码来表示缺失值.(用布尔类型来代替原先数据/用0或1来表示)

           2.用一个标签值来表示缺失值.(用一个具体的自定义的数据来表示,如-9999.  或用None或NaN)

1.缺失值

具体使用哪种方法还需要看具体情况:

                            1.用掩码来处理会额外构造一个布尔数组,会增加存储

                            2.标签值方法缩小了可以被表示的有效值的范围,会增加额外的计算逻辑。而且NaN也不                                                               能够表示所有数据类型。

Pandas的缺失值:1.Python对象类型的缺失值None(Python中不能将None与整数相加)

                             2.数值类型对象的缺失值NaN(NaN是一种特殊的浮点数,不是整数、字符串等其它数据类型;

                                 且无论对和NaN做哪种操作,最终结果都是NaN)

Pandas中NaN与None的差异:实际上,Pandas把他们看成是可以等价交换的,合适的时候会将他们进行替换。


  1. import pandas as pd  

  2. import numpy as np  


  1. pd.Series([1,np.nan,2,None])  

  2. Out[4]:   

  3. 0    1.0  

  4. 1    NaN  

  5. 2    2.0  

  6. 3    NaN  

  7. dtype: float64  


Pandas对不同缺失值的转换规则:


  1.                   缺失值转换规则        NA标签值  

  2. floating浮点型            无变化         np.nan  

  3. object对象类型            无变化    None或np.nan  

  4. integer整数类型  强制转换为float64        np.nan  

  5. boolean布尔类型   强制转换为object  None或np.nan  

2.处理缺失值

1. isnull()

          创建一个布尔类型的掩码标签缺失值

2. notnull()

          与isnull()操作相反

3. dropna(how= , axis=)

          返回一个剔除缺失值的数据(无法单独剔除,只能剔除整列或整行)

4. fillna( method= , axis= )

           返回一个填充了缺失值的数据副本(一般直接fillna(-9999)就好

                                                                  method有‘ffill’:从前往后填充

                                                                                  ‘bfill’:从后往前填充)

原文出处



點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消