數據分析經常使用的 23 個 Pandas 代碼，收好不謝

時間 2019-11-17

標籤數據分析經常使用 pandas 代碼收好不謝简体版

原文原文鏈接

文：George Seif
編譯：之餚
來源： towardsdatascience.com/23-great-pa…

這兒有給數據分析師的 23 個 Pandas 代碼，能夠幫你更好地理解數據！Pandas 想必從事數據分析的各位都懂，這是一個開源的，BSD 許可的庫，爲 Python 編程語言提供高性能，易於使用的數據結構和數據分析工具。還不熟悉的新手能夠複製官網連接，10 分鐘快速瞭解下：pandas.pydata.org/pandas-docs…html

應用案例集合也能夠看看：pandas.pydata.org/pandas-docs…程序員

（1）讀入 CSV 數據集編程

pd.DataFrame.from_csv(「csv_file」)
複製代碼

或者：數組

pd.read_csv(「csv_file」)
複製代碼

（2）讀入 Excel 數據集bash

pd.read_excel("excel_file")
複製代碼

（3）直接把數據寫入 CSV數據結構

如數據以逗號分隔，且沒有索引：app

df.to_csv("data.csv", sep=",", index=False)
複製代碼

（4）基礎數據集特徵信息編程語言

df.info()
複製代碼

（5）基礎數據集統計結果函數

print(df.describe())
複製代碼

(6) 以表格形式打印數據工具

print(tabulate(print_table, headers=headers))
複製代碼

其中「print_table」是一列list，「headers」是一列字符串擡頭

（7）列出列名稱

df.columns
複製代碼

基本數據處理

（8）刪除缺失的數據

df.dropna(axis=0, how='any')
複製代碼

返回給定軸上標籤的對象，逐個丟掉相應數據。

（9）替換丟失的數據

df.replace(to_replace=None, value=None)
複製代碼

用「value」的值替換「to_replace」中給出的值。

（10）檢查 NAN

pd.isnull(object)
複製代碼

檢測缺失值（有數值數組中的NaN，對象數組中的None和NaN）

（11）刪除特徵

df.drop('feature_variable_name', axis=1)
複製代碼

軸爲 0 表明行，1 表明列

（12）將對象類型轉換爲 float

pd.to_numeric(df["feature_name"], errors='coerce')
複製代碼

將對象類型轉換爲數字型以便計算（若是它們是字符串的話）

（13）將數據轉換爲 Numpy 數組

df.as_matrix()
複製代碼

（14）獲取數據的頭「n」行

df.head(n)
複製代碼

（15）按特徵名稱獲取數據

df.loc[feature_name] 
複製代碼

（16）將函數應用於數據

這個函數將數據裏「height」一列中的全部值乘以2

df["height"].apply(*lambda* height: 2 * height)
複製代碼

或：

def multiply(x):

 return x * 2

df["height"].apply(multiply)
複製代碼

（17）重命名數據列

這裏咱們將數據的第3列重命名爲「size」

df.rename(columns = {df.columns[2]:'size'}, inplace=True)
複製代碼

（18）單獨提取某一列

df["name"].unique()
複製代碼

（19）訪問子數據

咱們從數據中選擇「name」和「size」兩列

new_df = df[["name", "size"]]
複製代碼

（20）總結數據信息

#數據之和df.sum()
#數據中的最小值df.min()
#數據中的最大值df.max()
#最小值的索引df.idxmin()
#最大值的索引df.idxmax()
#數據統計信息，有四分位數，中位數等df.describe()
#平均值df.mean()
#中位數值df.median() 
複製代碼

（21）對數據進行排序

df.sort_values(ascending = False)
複製代碼

（22）布爾索引

這裏咱們過濾「size」的數據列，以顯示等於5的值：

df[df["size"] == 5]
複製代碼

（23）選擇某值

選擇「size」列的第一行：

df.loc([0], ['size'])
複製代碼

那麼問題來了，程序員該如何系統學習數據分析？

經過職業路徑的規劃，在 Udacity 一站式學習「數據科學」學院課程，配合硅谷權威課程內容、名企實戰項目以及個性化的學習輔導，幫助每一位學員在「數據科學」這條職業道路上拒絕彎路，零壓力入門，短時間、高效的學習每一個階段和職業路程上的必備知識和經驗。

你能夠在「優達數據科學學院」找到適合本身的學習規劃，並在行業專家的引導下，避開學習誤區，高效掌握數據分析核心技能，輕鬆遠超行業競爭者，斬獲高薪 Offer！

若是你是如下三類人羣：

負數據/統計基礎，想要加入數據人才紅利的小白；
有必定編程經驗，面臨着職業和年薪瓶頸的轉型者；
想要在數據科學領域或者學術領域深耕的專業人士；

你都將在 Udacity 數據科學學院獲得解決方案，得到更清晰、更高效的學習路徑，進而掌握核心技術，get 豐富的實戰經驗，快速提高職場競爭力！

來體驗下咱們的新學院 ba！

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。