利用Python進行數據分析(10) pandas基礎: 處理缺失數據

 
數據不完整在數據分析的過程當中很常見。
pandas使用浮點值NaN表示浮點和非浮點數組裏的缺失數據。
pandas使用isnull()和notnull()函數來判斷缺失狀況。

對於缺失數據通常處理方法爲濾掉或者填充

濾除缺失數據
 
對於一個Series,dropna()函數返回一個包含非空數據和索引值的Series,例如:

對於DataFrame,dropna()函數一樣會丟掉全部含有空元素的數據,例如:
 
可是能夠指定how='all',這表示只有行裏的數據所有爲空時才丟棄,例如:
 
若是想以一樣的方式按列丟棄,能夠傳入axis=1,例如:
 
 
填充缺失數據

若是不想丟掉缺失的數據而是想用默認值填充這些空洞,能夠使用fillna()函數:
 
若是不想只以某個標量填充,能夠傳入一個字典,對不一樣的列填充不一樣的值:
相關文章
相關標籤/搜索