在處理任何數據以前,咱們的第一任務是理解數據以及數據是幹什麼用的。咱們嘗試去理解數據的列/行、記錄、數據格式、語義錯誤、缺失的條目以及錯誤的格式,這樣咱們就能夠大概瞭解數據分析以前要作哪些「清理」工做。html
本次咱們須要一個 patient_heart_rate.csv (連接:https://pan.baidu.com/s/1geX8oYf 密碼:odj0)的數據文件,這個數據很小,可讓咱們一目瞭然。這個數據是 csv 格式。數據是描述不一樣個體在不一樣時間的心跳狀況。數據的列信息包括人的年齡、體重、性別和不一樣時間的心率。app
import pandas as pd df = pd.read_csv('../data/patient_heart_rate.csv') df.head()
下面咱們就針對上面的問題一一擊破。優化
1. 沒有列頭編碼
若是咱們拿到的數據像上面的數據同樣沒有列頭,Pandas 在讀取 csv 提供了自定義列頭的參數。下面咱們就經過手動設置列頭參數來讀取 csv,代碼以下:spa
import pandas as pd # 增長列頭 column_names= ['id', 'name', 'age', 'weight','m0006','m0612','m1218','f0006','f0612','f1218'] df = pd.read_csv('../data/patient_heart_rate.csv', names = column_names) df.head()
上面的結果展現了咱們自定義的列頭。咱們只是在此次讀取 csv 的時候,多了傳了一個參數 names = column_names,這個就是告訴 Pandas 使用咱們提供的列頭。code
2. 一個列有多個參數orm
在數據中不難發現,Name 列包含了兩個參數 Firtname 和 Lastname。爲了達到數據整潔目的,咱們決定將 name 列拆分紅 Firstname 和 Lastnamehtm
從技術角度,咱們能夠使用 split 方法,完成拆分工做。blog
咱們使用 str.split(expand=True),將列表拆成新的列,再將原來的 Name 列刪除索引
# 切分名字,刪除源數據列 df[['first_name','last_name']] = df['name'].str.split(expand=True) df.drop('name', axis=1, inplace=True)
上面就是執行執行代碼以後的結果。
3. 列數據的單位不統一
若是仔細觀察數據集能夠發現 Weight 列的單位不統一。有的單位是 kgs,有的單位是 lbs
# 獲取 weight 數據列中單位爲 lbs 的數據 rows_with_lbs = df['weight'].str.contains('lbs').fillna(False) df[rows_with_lbs]
爲了解決這個問題,將單位統一,咱們將單位是 lbs 的數據轉換成 kgs。
# 將 lbs 的數據轉換爲 kgs 數據 for i,lbs_row in df[rows_with_lbs].iterrows(): weight = int(float(lbs_row['weight'][:-3])/2.2) df.at[i,'weight'] = '{}kgs'.format(weight)
4. 缺失值
在數據集中有些年齡、體重、心率是缺失的。咱們又遇到了數據清洗最多見的問題——數據缺失。通常是由於沒有收集到這些信息。咱們能夠諮詢行業專家的意見。典型的處理缺失數據的方法:
5. 空行
仔細對比會發現咱們的數據中一行空行,除了 index 以外,所有的值都是 NaN。
Pandas 的 read_csv() 並無可選參數來忽略空行,這樣,咱們就須要在數據被讀入以後再使用 dropna() 進行處理,刪除空行.
# 刪除全空的行 df.dropna(how='all',inplace=True)
6. 重複數據
有的時候數據集中會有一些重複的數據。在咱們的數據集中也添加了重複的數據。
首先咱們校驗一下是否存在重複記錄。若是存在重複記錄,就使用 Pandas 提供的 drop_duplicates() 來刪除重複數據。
# 刪除重複數據行 df.drop_duplicates(['first_name','last_name'],inplace=True)
7. 非 ASCII 字符
在數據集中 Fristname 和 Lastname 有一些非 ASCII 的字符。
處理非 ASCII 數據方式有多種
咱們使用刪除的方式:
# 刪除非 ASCII 字符 df['first_name'].replace({r'[^\x00-\x7F]+':''}, regex=True, inplace=True) df['last_name'].replace({r'[^\x00-\x7F]+':''}, regex=True, inplace=True)
8. 有些列頭應該是數據,而不該該是列名參數
有一些列頭是有性別和時間範圍組成的,這些數據有多是在處理收集的過程當中進行了行列轉換,或者收集器的固定命名規則。這些值應該被分解爲性別(m,f),小時單位的時間範圍(00-06,06-12,12-18)
# 切分 sex_hour 列爲 sex 列和 hour 列 sorted_columns = ['id','age','weight','first_name','last_name'] df = pd.melt(df, id_vars=sorted_columns,var_name='sex_hour',value_name='puls_rate').sort_values(sorted_columns) df[['sex','hour']] = df['sex_hour'].apply(lambda x:pd.Series(([x[:1],'{}-{}'.format(x[1:3],x[3:])])))[[0,1]] df.drop('sex_hour', axis=1, inplace=True) # 刪除沒有心率的數據 row_with_dashes = df['puls_rate'].str.contains('-').fillna(False) df.drop(df[row_with_dashes].index, inplace=True)
import pandas as pd # 增長列頭 column_names= ['id', 'name', 'age', 'weight','m0006','m0612','m1218','f0006','f0612','f1218'] df = pd.read_csv('../data/patient_heart_rate.csv', names = column_names) # 切分名字,刪除源數據列 df[['first_name','last_name']] = df['name'].str.split(expand=True) df.drop('name', axis=1, inplace=True) # 獲取 weight 數據列中單位爲 lbs 的數據 rows_with_lbs = df['weight'].str.contains('lbs').fillna(False) df[rows_with_lbs] # 將 lbs 的數據轉換爲 kgs 數據 for i,lbs_row in df[rows_with_lbs].iterrows(): weight = int(float(lbs_row['weight'][:-3])/2.2) df.at[i,'weight'] = '{}kgs'.format(weight) # 刪除全空的行 df.dropna(how='all',inplace=True) # 刪除重複數據行 df.drop_duplicates(['first_name','last_name'],inplace=True) # 刪除非 ASCII 字符 df['first_name'].replace({r'[^\x00-\x7F]+':''}, regex=True, inplace=True) df['last_name'].replace({r'[^\x00-\x7F]+':''}, regex=True, inplace=True) # 切分 sex_hour 列爲 sex 列和 hour 列 sorted_columns = ['id','age','weight','first_name','last_name'] df = pd.melt(df, id_vars=sorted_columns,var_name='sex_hour',value_name='puls_rate').sort_values(sorted_columns) df[['sex','hour']] = df['sex_hour'].apply(lambda x:pd.Series(([x[:1],'{}-{}'.format(x[1:3],x[3:])])))[[0,1]] df.drop('sex_hour', axis=1, inplace=True) # 刪除沒有心率的數據 row_with_dashes = df['puls_rate'].str.contains('-').fillna(False) df.drop(df[row_with_dashes].index, inplace=True) # 重置索引,不作也不要緊,主要是爲了看着美觀一點 df = df.reset_index(drop=True) print(df)
還有一些問題在本例中沒有說起內容,下面有兩個比較重要,也比較通用的問題:
本次又介紹了一些關於 Pandas 清洗數據的技能。至少用這幾回介紹的處理方法,應該能夠對數據作不少清洗工做。
更多關於數據清洗的內容能夠關注知乎上的專欄「數據清洗」