import numpy as np import pandas as pd df = pd.read_excel('myData.xls', sheet_name='Sheet1') print(df) df1 = df.replace(np.nan, '', regex=True) print(df1)
DataFrame
這是一個pandas的概念,能夠簡單理解成一個表格。在print(df)
會看到有些數據爲NaN,須要清洗掉這個部分數據,須要pandas結合numpy一塊兒使用,關鍵代碼以下:excel
df1 = df.replace(np.nan, '', regex=True)
把DataFrame裏面數據爲NaN
的替換成空字符串的數據。code
df1 = df.dropna()
dropna
方法,能夠直接刪除一行包含無效數據(NAN)的數據。字符串
這裏主要了解pandas裏面的DataFrame的概念,以及怎麼樣結合numpy進行數據預處理。還涉及到了pandas讀取excel文件的使用。get