pandas簡單應用

機器學習離不開數據，數據分析離不開pandas。昨天感覺了一下，真的方便。按照通常的使用過程，將pandas的經常使用方法說明一下。機器學習

首先，咱們拿到一個excel表，咱們將之另存爲csv文件。由於文件是實驗室的資源，我就不分享了。函數

首先是文件讀取學習

def load_csv(filename): data=pd.read_csv(filename) data = data.drop(data.columns[39:], axis=1) return data

咱們調用read_csv文件能夠直接讀取csv文件。其返回值爲DataFrame。excel若是橫向拖動太多的話，會生成不少空列。這裏咱們經過drop方法刪掉39列以後的列。spa

而後pandas爲了讓顯示美觀，會在輸出信息的時候自動隱藏數據。咱們調整參數，使數據所有顯示。excel

pd.set_option('display.max_rows', 10) pd.set_option('display.max_columns', 500) pd.set_option('display.width', 500)

設置最多顯示10行，500列。寬度爲500.code

使用 data.head()能夠查看前4行的數據。orm

print(data.head())

能夠看到所有數據都被顯示出來了。而後咱們能夠使用data.info() ,data.discribe()、data.count()查看數據的總體信息。blog

print(data.info()) print(data.describe()) print(data.count())

data.info()顯示的是：資源

data.describe()顯示的是：rem

data.count()顯示的是：

能夠看到數據的值跨度很大，因此咱們對數據進行normalization：

keys=X.keys().tolist() keys.remove("Index") keys.remove("Label") for key in keys: #將數值範圍限定在-0.5~0.5
        #normalize_col=(X[key]-(X[key].max()+X[key].min())/2)/(X[key].max()-X[key].min())
        #用mean來normolize
        normalize_col = (X[key] - X[key].mean()) / (X[key].max() - X[key].min()) X = X.drop(key, axis=1) X[key]=normalize_col

咱們能夠經過keys中列名來有選擇的進行歸一化處理。

有時候，有的不和規範的數據咱們想刪掉：

#刪掉JiGan爲-1的人
    data = data[data["JiGan"].isin([-1.0]) == False]

數據篩選還有其餘函數，用到了在慢慢補充吧。