數據分析經常使用的 23 個 Pandas 代碼,收好不謝

文:George Seif
編譯:之餚
來源: towardsdatascience.com/23-great-pa…

這兒有給數據分析師的 23 個 Pandas 代碼,能夠幫你更好地理解數據!Pandas 想必從事數據分析的各位都懂,這是一個開源的,BSD 許可的庫,爲 Python 編程語言提供高性能,易於使用的數據結構和數據分析工具。還不熟悉的新手能夠複製官網連接,10 分鐘快速瞭解下:pandas.pydata.org/pandas-docs…html


應用案例集合也能夠看看:pandas.pydata.org/pandas-docs…程序員


(1)讀入 CSV 數據集編程

pd.DataFrame.from_csv(「csv_file」)
複製代碼

或者:數組

pd.read_csv(「csv_file」)
複製代碼


(2)讀入 Excel 數據集bash

pd.read_excel("excel_file")
複製代碼


(3)直接把數據寫入 CSV數據結構

如數據以逗號分隔,且沒有索引:app

df.to_csv("data.csv", sep=",", index=False)
複製代碼


(4)基礎數據集特徵信息編程語言

df.info()
複製代碼


(5)基礎數據集統計結果函數

print(df.describe())
複製代碼


(6) 以表格形式打印數據工具

print(tabulate(print_table, headers=headers))
複製代碼

其中「print_table」是一列list,「headers」是一列字符串擡頭


(7)列出列名稱

df.columns
複製代碼


基本數據處理


(8)刪除缺失的數據

df.dropna(axis=0, how='any')
複製代碼

返回給定軸上標籤的對象,逐個丟掉相應數據。


(9)替換丟失的數據

df.replace(to_replace=None, value=None)
複製代碼

用「value」的值替換「to_replace」中給出的值。


(10)檢查 NAN

pd.isnull(object)
複製代碼

檢測缺失值(有數值數組中的NaN,對象數組中的None和NaN)


(11)刪除特徵

df.drop('feature_variable_name', axis=1)
複製代碼

軸爲 0 表明行,1 表明列


(12)將對象類型轉換爲 float

pd.to_numeric(df["feature_name"], errors='coerce')
複製代碼

將對象類型轉換爲數字型以便計算(若是它們是字符串的話)


(13)將數據轉換爲 Numpy 數組

df.as_matrix()
複製代碼


(14)獲取數據的頭「n」行

df.head(n)
複製代碼


(15)按特徵名稱獲取數據

df.loc[feature_name] 
複製代碼


(16)將函數應用於數據

這個函數將數據裏「height」一列中的全部值乘以2

df["height"].apply(*lambda* height: 2 * height)
複製代碼

或:

def multiply(x):

 return x * 2

df["height"].apply(multiply)
複製代碼


(17)重命名數據列

這裏咱們將數據的第3列重命名爲「size」

df.rename(columns = {df.columns[2]:'size'}, inplace=True)
複製代碼


(18)單獨提取某一列

df["name"].unique()
複製代碼


(19)訪問子數據

咱們從數據中選擇「name」和「size」兩列

new_df = df[["name", "size"]]
複製代碼


(20)總結數據信息

#數據之和df.sum()
#數據中的最小值df.min()
#數據中的最大值df.max()
#最小值的索引df.idxmin()
#最大值的索引df.idxmax()
#數據統計信息,有四分位數,中位數等df.describe()
#平均值df.mean()
#中位數值df.median() 
複製代碼


(21)對數據進行排序

df.sort_values(ascending = False)
複製代碼


(22)布爾索引

這裏咱們過濾「size」的數據列,以顯示等於5的值:

df[df["size"] == 5]
複製代碼


(23)選擇某值

選擇「size」列的第一行:

df.loc([0], ['size'])
複製代碼



那麼問題來了,程序員該如何系統學習數據分析?

經過職業路徑的規劃,在 Udacity 一站式學習「數據科學」學院課程,配合硅谷權威課程內容、名企實戰項目以及個性化的學習輔導,幫助每一位學員在「數據科學」這條職業道路上拒絕彎路,零壓力入門,短時間、高效的學習每一個階段和職業路程上的必備知識和經驗。

你能夠在 「優達數據科學學院」 找到適合本身的學習規劃,並在行業專家的引導下,避開學習誤區,高效掌握數據分析核心技能,輕鬆遠超行業競爭者,斬獲高薪 Offer!



若是你是如下三類人羣:

  • 負數據/統計基礎,想要加入數據人才紅利的小白;
  • 有必定編程經驗,面臨着職業和年薪瓶頸的轉型者;
  • 想要在數據科學領域或者學術領域深耕的專業人士;

你都將在 Udacity 數據科學學院獲得解決方案,得到更清晰、更高效的學習路徑,進而掌握核心技術,get 豐富的實戰經驗,快速提高職場競爭力!


來體驗下咱們的新學院 ba!


相關文章
相關標籤/搜索