[數據清洗]- Pandas 清洗「髒」數據(三)

預覽數據

此次咱們使用 Artworks.csv ,咱們選取 100 行數據來完成本次內容。具體步驟:git

  1. 導入 Pandas
  2. 讀取 csv 數據到 DataFrame(要確保數據已經下載到指定路徑)

DataFrame 是 Pandas 內置的數據展現的結構,展現速度很快,經過 DataFrame 咱們就能夠快速的預覽和分析數據。代碼以下:github

import pandas as pd

​

df = pd.read_csv('../data/Artworks.csv').head(100)

df.head(10)

 

 

統計日期數據

咱們仔細觀察一下 Date 列的數據,有一些數據是年的範圍(1976-1977),而不是單獨的一個年份。在咱們使用年份數據畫圖時,就不能像單獨的年份那樣輕易的畫出來。咱們如今就使用 Pandas 的 value_counts() 來統計一下每種數據的數量。spa

首先,選擇要統計的列,並調用 value_counts():code

df['Date'].value_counts()

 

 

 

日期數據問題

Date 列數據,除了年份是範圍外,還有三種非正常格式。下面咱們將這幾種列出來:blog

  • 問題一,時間範圍(1976-77)
  • 問題二,估計(c. 1917,1917 年先後)
  • 問題三,缺失數據(Unknown)
  • 問題四,無心義數據(n.d.)

接下來咱們會處理上面的每個問題,使用 Pandas 將這些不規則的數據轉換爲統一格式的數據。字符串

問題一和二是有數據的只是格式上欠穩當,問題三和四實際上不是有效數據。針對前兩個問題,咱們能夠經過代碼將據格式化來達到清洗的目的,然而,後兩個問題,代碼上只能將其做爲缺失值來處理。簡單起見,咱們將問題三和四的數據處理爲0。get

 

處理問題一

問題一的數據都是兩個年時間範圍,咱們選擇其中的一個年份做爲清洗以後的數據。爲了簡單起見,咱們就使用開始的時間來替換這樣問題的數據,由於這個時間是一個四位數的數字,若是要使用結束的年份,咱們還要補齊前兩位的數字。pandas

首先,咱們須要找到問題一的數據,這樣咱們才能將其更新。要保證其餘的數據不被更新,由於其餘的數據有多是已經格式化好的,也有多是咱們下面要處理的。it

咱們要處理的時間範圍的數據,其中包含有「-」,這樣咱們就能夠經過這個特殊的字符串來過濾咱們要處理的數據,而後,經過 split() 利用「-」將數據分割,將結果的第一部分做爲處理的最終結果。io

代碼以下

row_with_dashes = df['Date'].str.contains('-').fillna(False)

for i, dash in df[row_with_dashes].iterrows():

    df.at[i,'Date'] = dash['Date'][0:4]

df['Date'].value_counts()

 

 

處理問題二

問題二的數據體現了數據自己的不許確性,是一個估計的年份時間,咱們將其轉換爲年份,那麼,就只要保留最後四位數字便可,該數據的特色就是數據包含「c」,這樣咱們就能夠經過這一特徵將須要轉換的數據過濾出來。

row_with_cs = df['Date'].str.contains('c').fillna(False)

for i,row in df[row_with_cs].iterrows():

    df.at[i,'Date'] = row['Date'][-4:]

df[row_with_cs]

 

 

處理問題三四

將這問題三四的數據賦值成初始值 0。

df['Date'] = df['Date'].replace('Unknown','0',regex=True)

df['Date'] = df['Date'].replace('n.d.','0',regex=True)

df['Date']

 

 

代碼整合

mport pandas as pd

​

df = pd.read_csv('../data/Artworks.csv').head(100)

df.head(10)

​

df['Date'].value_counts()

​

row_with_dashes = df['Date'].str.contains('-').fillna(False)

for i, dash in df[row_with_dashes].iterrows():

    df.at[i,'Date'] = dash['Date'][0:4]

df['Date'].value_counts()

​

row_with_cs = df['Date'].str.contains('c').fillna(False)

for i,row in df[row_with_cs].iterrows():

    df.at[i,'Date'] = row['Date'][-4:]

df['Date'].value_counts()

​

df['Date'] = df['Date'].replace('Unknown','0',regex=True)

df['Date'] = df['Date'].replace('n.d.','0',regex=True)

df['Date'].value_counts()

 

更多關於數據清洗的內容能夠關注知乎上的專欄「數據清洗

知乎 數據清洗- Pandas 清洗「髒」數據(三)