此次想說一下,看起來都是正確的數值數據,在人和機器理解起來的差異app
# 演示數字和字符串的區別 two_char = '2' two_num = 2 def doubule(x): return x * 2 print('char:{}'.format(doubule(two_char))) print('num:{}'.format(doubule(two_num))) print('text:{}'.format(doubule('Test text end '))) # 報錯,類型不對 print("2" + 2) # 模擬數據 import pandas as pd df = pd.DataFrame([[1,2,3,4,16],['1','2','3','4','F']],index =['Data1','Data2']) print(df) # 翻十倍,查看結果與預想結果的差異 df.apply(lambda x: x * 10) # 查看數據類型 df.dtypes # 嘗試轉換,報錯 df.loc['Data2'] = pd.to_numeric(df.loc['Data2']) # 只轉換能轉換的,不能轉換的賦值爲 NaN(Not a Number) df.loc['Data2'] = pd.to_numeric(df.loc['Data2'] ,errors='coerce') # 查當作功轉換後的結果 df.loc['Data2'] # 再次運算,查看結果與預想結果的差異 df = df.apply(lambda x: x * 10) print(df) # 查看數據類型 df.dtypes
更多關於數據清洗的內容能夠關注知乎上的專欄「數據清洗」spa