文:George Seif
編譯:之餚
來源: towardsdatascience.com/23-great-pa…
這兒有給數據分析師的 23 個 Pandas 代碼,能夠幫你更好地理解數據!Pandas 想必從事數據分析的各位都懂,這是一個開源的,BSD 許可的庫,爲 Python 編程語言提供高性能,易於使用的數據結構和數據分析工具。還不熟悉的新手能夠複製官網連接,10 分鐘快速瞭解下:pandas.pydata.org/pandas-docs…html
應用案例集合也能夠看看:pandas.pydata.org/pandas-docs…程序員
(1)讀入 CSV 數據集編程
pd.DataFrame.from_csv(「csv_file」)
複製代碼
或者:數組
pd.read_csv(「csv_file」)
複製代碼
(2)讀入 Excel 數據集bash
pd.read_excel("excel_file")
複製代碼
(3)直接把數據寫入 CSV數據結構
如數據以逗號分隔,且沒有索引:app
df.to_csv("data.csv", sep=",", index=False)
複製代碼
(4)基礎數據集特徵信息編程語言
df.info()
複製代碼
(5)基礎數據集統計結果函數
print(df.describe())
複製代碼
(6) 以表格形式打印數據工具
print(tabulate(print_table, headers=headers))
複製代碼
其中「print_table」是一列list,「headers」是一列字符串擡頭
(7)列出列名稱
df.columns
複製代碼
基本數據處理
(8)刪除缺失的數據
df.dropna(axis=0, how='any')
複製代碼
返回給定軸上標籤的對象,逐個丟掉相應數據。
(9)替換丟失的數據
df.replace(to_replace=None, value=None)
複製代碼
用「value」的值替換「to_replace」中給出的值。
(10)檢查 NAN
pd.isnull(object)
複製代碼
檢測缺失值(有數值數組中的NaN,對象數組中的None和NaN)
(11)刪除特徵
df.drop('feature_variable_name', axis=1)
複製代碼
軸爲 0 表明行,1 表明列
(12)將對象類型轉換爲 float
pd.to_numeric(df["feature_name"], errors='coerce')
複製代碼
將對象類型轉換爲數字型以便計算(若是它們是字符串的話)
(13)將數據轉換爲 Numpy 數組
df.as_matrix()
複製代碼
(14)獲取數據的頭「n」行
df.head(n)
複製代碼
(15)按特徵名稱獲取數據
df.loc[feature_name]
複製代碼
(16)將函數應用於數據
這個函數將數據裏「height」一列中的全部值乘以2
df["height"].apply(*lambda* height: 2 * height)
複製代碼
或:
def multiply(x):
return x * 2
df["height"].apply(multiply)
複製代碼
(17)重命名數據列
這裏咱們將數據的第3列重命名爲「size」
df.rename(columns = {df.columns[2]:'size'}, inplace=True)
複製代碼
(18)單獨提取某一列
df["name"].unique()
複製代碼
(19)訪問子數據
咱們從數據中選擇「name」和「size」兩列
new_df = df[["name", "size"]]
複製代碼
(20)總結數據信息
#數據之和df.sum()
#數據中的最小值df.min()
#數據中的最大值df.max()
#最小值的索引df.idxmin()
#最大值的索引df.idxmax()
#數據統計信息,有四分位數,中位數等df.describe()
#平均值df.mean()
#中位數值df.median()
複製代碼
(21)對數據進行排序
df.sort_values(ascending = False)
複製代碼
(22)布爾索引
這裏咱們過濾「size」的數據列,以顯示等於5的值:
df[df["size"] == 5]
複製代碼
(23)選擇某值
選擇「size」列的第一行:
df.loc([0], ['size'])
複製代碼
經過職業路徑的規劃,在 Udacity 一站式學習「數據科學」學院課程,配合硅谷權威課程內容、名企實戰項目以及個性化的學習輔導,幫助每一位學員在「數據科學」這條職業道路上拒絕彎路,零壓力入門,短時間、高效的學習每一個階段和職業路程上的必備知識和經驗。
你能夠在 「優達數據科學學院」 找到適合本身的學習規劃,並在行業專家的引導下,避開學習誤區,高效掌握數據分析核心技能,輕鬆遠超行業競爭者,斬獲高薪 Offer!
若是你是如下三類人羣:
你都將在 Udacity 數據科學學院獲得解決方案,得到更清晰、更高效的學習路徑,進而掌握核心技術,get 豐富的實戰經驗,快速提高職場競爭力!
來體驗下咱們的新學院 ba!