使用pandas的dataframe清理excel裏面空值

Python3

import numpy as np
import pandas as pd
df = pd.read_excel('myData.xls', sheet_name='Sheet1')
print(df)
df1 = df.replace(np.nan, '', regex=True)
print(df1)

DataFrame

replate

DataFrame這是一個pandas的概念,能夠簡單理解成一個表格。在print(df)會看到有些數據爲NaN,須要清洗掉這個部分數據,須要pandas結合numpy一塊兒使用,關鍵代碼以下:excel

df1 = df.replace(np.nan, '', regex=True)

把DataFrame裏面數據爲NaN的替換成空字符串的數據。code

dropnp

df1 = df.dropna()

dropna方法,能夠直接刪除一行包含無效數據(NAN)的數據。字符串

總結

這裏主要了解pandas裏面的DataFrame的概念,以及怎麼樣結合numpy進行數據預處理。還涉及到了pandas讀取excel文件的使用。get

參考:

Pandas Replace NaN with blank/empty stringstring

相關文章
相關標籤/搜索