pandas對象是Python經常使用的數據分析模塊,它主要包括series對象,dataframe對象和index對象。每種對象都有本身所特有的方法和屬性。今天小編更新下建模中經常使用的pandas語句。html
額外提一句哈。小編不私聊哈,有事的話請加qq羣的,微信羣已滿。微信
1.導入pandas和numpy模塊app
import pandas as pdhtm
import numpy as np對象
import os索引
2.查看並更改工做路徑get
pwd數據分析
os.chdir('更改的路徑')pandas
3.讀入數據集io
df=pd.read_csv(r'文件路徑')
4.查看列數、行數
print(df1.columns.size,df.iloc[:,0].size)
5.查看列名
df.columns.tolist()
6.查看每一個特徵的類型
for col in fk_df.columns:print(col,fk_df[col].dtype)
7.計算壞帳率
badRate=df['target'].sum()/df['target'].count()
8.計算特徵空值率
null_rate=1-df.count()/df.shape[0]
9.保留空值率小於0.2的特徵
cols=null_rate[null_rate<0.2].index.tolist()
10.查找數據集數值中型特徵小於0的值並置爲nan
def rep(x):if type(x)!=str and x<0:print(x)return np.nan return x df=df.applymap(rep)
11.設置新的索引
df=df.reindex()
12.檢查常量特徵
df1=df.loc[:,df1.apply(pd.Series.nunique)!=1]
13.查看是否有重複特徵
len(set(list(df1.columns)))==df1.shape[1]
14.查看特徵類別數
df1['education'].value_counts()