Python學習教程:20個Pandas代碼 助數據從業人員開啓新徵程!數組
摘要bash
Pandas 是基於NumPy 的一種工具,該工具是爲了解決數據分析任務而建立的。很多利用Python作數據分析的朋友應該對Pandas不陌生,這裏給你們總結了20個經常使用的Pandas代碼幫助你們更快速的理解數據。app
我這裏將這20個Pandas代碼分紅三類:函數
基本數據信息工具
一、基本讀寫數據集(CSV、Execl)學習
# csv
# 讀
pd.DataFrame.from_csv(「csv_file」)
pd.read_csv(「csv_file」)
# 寫
df.to_csv("data.csv", sep=",", index=False) # 逗號分隔,沒有下標
# execl
pd.read_excel("excel_file")
df.to_execl("data.xlsx",sheet_name='a')
複製代碼
二、基本數據集特徵ui
df.info()
複製代碼
三、基本數據統計spa
df.describe()
複製代碼
四、將data frames輸出到一張表裏(tabulate模塊)excel
from tabulate import tabulate
print(tabulate(print_table, headers=headers))
# print_table 爲包含列表的列表
# headers 爲表頭所包含的字段
複製代碼
五、列出全部的字段code
df.columns
複製代碼
六、獲得先後n行
df.head(n) #前n行
df.tail(n) #後n行
複製代碼
七、經過特徵、位置定位數據
df.loc[feature_name]
#選擇「size」列的第一行
df.loc([0], ['size'])
df.iloc[n] # 位置
複製代碼
基本數據處理
八、去除缺失值
df.dropna(axis=0, how='any')
複製代碼
九、替換缺失值
df.replace(to_replace=None, value=None)
# 將「to_replace」中的值替換爲「value」
複製代碼
十、檢查缺失值
pd.isnull(object)
# 檢測缺失值(數值數組中的NaN,對象數組中的None/NaN)
複製代碼
十一、刪除一個字段
df.drop('feature_variable_name', axis=1)
# 軸對於行是0,對於列是1
複製代碼
十二、將對象類型轉換爲數值
pd.to_numeric(df["feature_name"], errors='coerce')
# 將對象類型轉換爲numeric以便可以執行計算(若是它們是字符串)
複製代碼
1三、將Dataframe轉換爲numpy數組
df.as_matrix()
複製代碼
操做Data frames
1四、將函數應用於dataframe
# 這個將把數據的「height」列中的全部值乘以2
一、df["height"].apply(lambda height: 2 * height)
二、def multiply(x):
return x * 2
df["height"].apply(multiply)
複製代碼
1五、從命名一列
# 這裏,將把數據的第三列重命名爲「size」
df.rename(columns = {df.columns[2]:'size'}, inplace=True)
複製代碼
1六、獲取某列的惟一項
# 這裏將獲得列「name」的惟一條目
df["name"].unique()
複製代碼
1七、多級訪問
# 在這裏,將從數據中獲取列的選擇,「name」和「size」
new_df = df[["name", "size"]]
複製代碼
1八、數據的一些統計量df.sum()
df.min()
df.max()
df.idxmin()
df.idxmax() #返回最大值索引
df.mean()
df.median()
df.corr() # 不一樣列之間的相關係數
df["size"].median
複製代碼
1九、 數據排序
df.sort_values(ascending = False)
複製代碼
20、布爾索引
df[df["size"] == 5] #布爾型索引複製代碼
更多的Python學習教程接下來橙子會繼續爲你們分享!