數據轉換指的是對數據的過濾、清理以及其餘的轉換操做。
移除重複數據
DataFrame裏常常會出現重複行,DataFrame提供一個duplicated()方法檢測各行是否重複,另外一個drop_duplicates()方法用於丟棄重複行:
duplicated()和drop_duplicates()方法默認
判斷所有列,若是不想這樣,傳入列的集合做爲參數能夠指定按列判斷,例如:
duplicated()和drop_duplicates()方法
默認保留第一個出現的值,傳入take_last=True保留最後一個值:
利用映射進行數據轉換
使用函數也能達到一樣的效果:
替換值
replace()方法用於替換:
一次替換多個值:
對不一樣的值進行不一樣的替換:
DataFrame重命名軸索引
重命名列:
重命名索引:
將數據劃分紅不一樣的組:
檢測和過濾異常值
假設你有一組數據:
找出絕對值大於2的值:
找出絕對值大於2的行:
將異常值設置爲0: