Pandas 是 Python 中很流行的類庫,使用它能夠進行數據科學計算和數據分。他能夠聯合其餘數據科學計算工具一起使用,好比,SciPy,NumPy 和 Matplotlib,建模工程師能夠經過建立端到端的分析工做流來解決業務問題。html
雖然咱們能夠 Python 和數據分析作不少強大的事情,可是咱們的分析結果的好壞依賴於數據的好壞。不少數據集存在數據缺失,或數據格式不統一(畸形數據),或錯誤數據的狀況。不論是不完善的報表,仍是技術處理數據的失當都會不可避免的引發「髒」數據。git
慶幸的是,Pandas 提供功能強大的類庫,無論數據處於什麼狀態,他能夠幫助咱們經過清洗數據,排序數據,最後獲得清晰明瞭的數據。對於案例的數據,準備使用 movie_metadata.csv(連接:https://pan.baidu.com/s/1i5zUvOD 密碼:a4t9)。這個數據集包含了不少信息,演員、導演、預算、總輸入,以及 IMDB 評分和上映時間。實際上,可使用上百萬或者更大的數據庫,可是,案例數據集對於開始入門仍是很好的。github
不幸的是,有一些列的值是缺失的,有些列的默認值是0,有的是 NaN(Not a Number)。數據庫
下面咱們經過使用 Pandas 提供的功能來清洗「髒」數據。工具
首先,第一次使用 Pandas 以前,咱們須要安裝 Pandas。安裝命令以下:spa
pip install pandas
接下來,導入 Pandas 到咱們的代碼中,代碼以下:code
#可使用其餘的別名, 可是,pd 是官方推薦的別名,也是你們習慣的別名 import pandas as pd
最後,加載數據集,代碼以下:htm
data = pd.read_csv('../data/tmdb_5000_credits.csv')
注意,確保已經下載數據集,若是你的代碼和數據集的存放結構與個人同樣,直接運行就能夠blog
不然,要根據實際的狀況,修改 read_csv() 的文件路徑排序
檢查一下咱們剛剛讀入數據的基本結構,Pandas 提供了 head() 方法打印輸出前五行數據。目的是讓咱們對讀入的數據有一個大體的瞭解。
data.head()
咱們能夠經過上面介紹的 Pandas 的方法查看數據,也能夠經過傳統的 Excel 程序查看數據,這個時候,咱們能夠開始記錄數據上的問題,而後,咱們再想辦法解決問題。
Pandas 提供了一些選擇的方法,這些選擇的方法能夠把數據切片,也能夠把數據切塊。下面咱們簡單介紹一下:
缺失數據是最多見的問題之一。產生這個問題可能的緣由
不管什麼緣由,只要有空白值得存在,就會引發後續的數據分析的錯誤。下面介紹幾個處理缺失數據的方法:
咱們應該去掉那些不友好的 NaN 值。可是,咱們應該用什麼值替換呢?在這裏,咱們就應該稍微掌握一下數據。對於咱們的例子,咱們檢查一下「country」列。這一列很是簡單,然而有一些電影沒有提供地區,因此有些數據的值是 NaN。在咱們的案例中,咱們推斷地區並非很重要,因此,咱們但是使用「」空字符串或其餘默認值。
data.country= data.country.fillna('')
上面,咱們就將「country」整個列使用「」空字符串替換了,或者,咱們也能夠輕易地使用「None Given」這樣的默認值進行替換。若是想了解更多 fillna() 的詳細信息參考 pandas.DataFrame.fillna。
使用數字類型的數據,好比,電影的時長,計算像電影平均時長能夠幫咱們甚至是數據集。這並非最優解,但這個持續時間是根據其餘數據估算出來的。這樣的方式下,就不會由於像 0 或者 NaN這樣的值在咱們分析的時候而拋錯。
data.duration = data.duration.fillna(data.duration.mean())
假設咱們想刪除任何有缺失值得行。這種操做太據侵略性,可是咱們能夠根據咱們的須要進行擴展。
刪除任何包含 NA 值的行是很容的:
data.dropna()
固然,咱們也能夠刪除一整行的值都爲 NA:
data.dropna(how='all')
咱們也能夠增長一些限制,在一行中有多少非空值的數據是能夠保留下來的(在下面的例子中,行數據中至少要有 5 個非空值)
data.drop(thresh=5)
好比說,咱們不想要不知道電影上映時間的數據:
data.dropna(subset=['title_year'])
上面的 subset 參數容許咱們選擇想要檢查的列。若是是多個列,可使用列名的 list 做爲參數。
咱們能夠上面的操做應用到列上。咱們僅僅須要在代碼上使用 axis=1 參數。這個意思就是操做列而不是行。(咱們已經在行的例子中使用了 axis=0,由於若是咱們不傳參數 axis,默認是axis=0。)
刪除一正列爲 NA 的列:
data.drop(axis=1, how='all')
刪除任何包含空值的列:
data.drop(axis=1. how='any')
這裏也可使用像上面同樣的 threshold 和 subset,更多的詳情和案例,請參考pandas.DataFrame.dropna。
有的時候,尤爲當咱們讀取 csv 中一串數字的時候,有的時候數值類型的數字被讀成字符串的數字,或將字符串的數字讀成數據值類型的數字。Pandas 仍是提供了規範化咱們數據類型的方式:
data = pd.read_csv('../data/moive_metadata.csv', dtype={'duration': int})
這就是告訴 Pandas ‘duration’列的類型是數值類型。一樣的,若是想把上映年讀成字符串而不是數值類型,咱們使用和上面相似的方法:
data = pd.read_csv('./data/moive_metadata.csv', dtype={'title_year':str})
注意,須要記住的是,再次從磁盤上讀取 csv ,確保規範化了咱們的數據類型,或者在讀取以前已經保存了中間結果。
人工錄入的數據可能都須要進行一些必要的變換。
將咱們數據中全部的 movie_title 改爲大寫:
data['movie_title'].str.upper()
一樣的,幹掉末尾空格:
data['movie_title'].str.strip()
這裏並無介紹關於英文的拼寫錯誤的問題,能夠參考模糊匹配。
最終的數據多是有計算機生成的,那麼,列名有可能也是計算機按照必定計算規律生成的。這些列名對計算機沒有什麼,可是對於人來講可能就不夠友好,這時候,咱們就須要重命名成對人友好的列名,代碼以下:
data,rename(columns = {‘title_year’:’release_date’, ‘movie_facebook_likes’:’facebook_likes’})
像上面這樣,咱們就完成了兩個列的重命名。須要注意的是,這個方法並無提供 inpalce 參數,咱們須要將結果賦值給本身才能夠:
data = data.rename(columns = {‘title_year’:’release_date’, ‘movie_facebook_likes’:’facebook_likes’})
咱們完成數據清洗以後,通常會把結果再以 csv 的格式保存下來,以便後續其餘程序的處理。一樣,Pandas 提供了很是易用的方法:
data.to_csv(‘cleanfile.csv’ encoding=’utf-8’)
此次介紹僅僅是冰山一角。有不少方式可能形成數據集變「髒」或被破壞:
在這裏,我介紹了 Python 用 Pandas 清洗數據最通常的方式。
更多關於數據清洗的內容能夠關注知乎上的專欄「數據清洗」