建模經常使用的pandas語句

時間 2019-11-12

標籤建模經常使用 pandas 語句简体版

原文原文鏈接

　　pandas對象是Python經常使用的數據分析模塊，它主要包括series對象，dataframe對象和index對象。每種對象都有本身所特有的方法和屬性。今天小編更新下建模中經常使用的pandas語句。html

　　額外提一句哈。小編不私聊哈，有事的話請加qq羣的，微信羣已滿。微信

　　1.導入pandas和numpy模塊app

　　import pandas as pdhtm

　　import numpy as np對象

　　import os索引

　　2.查看並更改工做路徑get

　　pwd數據分析

　　os.chdir('更改的路徑')pandas

　　3.讀入數據集io

　　df=pd.read_csv(r'文件路徑')

　　4.查看列數、行數

　　print(df1.columns.size,df.iloc[:,0].size)

　　5.查看列名

　　df.columns.tolist()

　　6.查看每一個特徵的類型

　　for col in fk_df.columns:print(col,fk_df[col].dtype)

　　7.計算壞帳率

　　badRate=df['target'].sum()/df['target'].count()

　　8.計算特徵空值率

　　null_rate=1-df.count()/df.shape[0]

　　9.保留空值率小於0.2的特徵

　　cols=null_rate[null_rate<0.2].index.tolist()

　　10.查找數據集數值中型特徵小於0的值並置爲nan

　　def rep(x):if type(x)!=str and x<0:print(x)return np.nan return x df=df.applymap(rep)

　　11.設置新的索引

　　df=df.reindex()

　　12.檢查常量特徵

　　df1=df.loc[:,df1.apply(pd.Series.nunique)!=1]

　　13.查看是否有重複特徵

　　len(set(list(df1.columns)))==df1.shape[1]

　　14.查看特徵類別數

　　df1['education'].value_counts()

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。