人工智障也刷題！Kaggle 入門之實戰泰坦尼克號

時間 2019-12-01

標籤人工智障 kaggle 入門實戰简体版

原文原文鏈接

背景

關於 Kaggle

www.kaggle.com/
這是一個爲你提供完美數據，爲你提供實際應用場景，能夠與小夥伴在數據挖掘領域 high 的不要不要的的地方啊！！！

Kaggle 是一個用來學習、分享和競賽的線上數據實驗平臺，有點相似 KDD—CUP（國際知識發現和數據挖掘競賽），企業或者研究者能夠將背景、數據、指望指標等發佈在 kaggle 上，用競賽的方式向全世界的數據科學家和愛好者尋求解決方案。熱愛數（dong）據（shou）挖（zhe）掘（teng）的小夥伴們能夠下載/分析數據，使用統計/機器學習/數據挖掘等方面的知識，創建算法模型，得出結果並提交，排名靠前可能還會有獎勵哦！前端

關於泰坦尼克號之災

www.kaggle.com/c/titanicpython

問題背景頁

下載 Data 的頁面

泰坦尼克號問題背景
就是你們從小到大被洗腦的「u jump I jump」的「jack 和 rose」的故事了。遊艇在撞擊了一個冰山後沉沒了。乘客們都惶恐不安，副船長「lady and kid first」，因此模型不會向拋硬幣那樣看臉決定你是否獲救。而是有着必定背景的，至於出了女士和孩子優先，還有哪些值得咱們考慮，這就是稍後咱們在特徵工程中解決的問題了。
訓練和測試數據是一些乘客的我的信息以及存活狀況，嘗試應用這些數據來創建一個合適的模型進行預測。
這是一個二分類問題（survived 或者 not），本文嘗試用 logistic regression 來處理問題
說明
「沒有所謂的算法優劣，也沒有絕對高性能的機器學習算法，只有在特定的場景、數據和特徵下更合適的機器學習的算法。」因爲還只是在學習階段，對於 XGBC、隨機森林、SVC 還不瞭解，本文所用的算法只是 logistic regression。

初識數據

在 Data 下咱們會看到官方給的 train.csv 和 test.csv 兩個文件，分別是訓練和測試數據。咱們可使用 virtualenv 來建立一個「隔離」的 python 應用環境（虛擬環境）。在這裏，你不須要考慮系統原有庫的版本，只須要 pip 來管理你須要用到的一切。算法

import pandas as pd 
import numpy as np 
from pandas import Series,DataFrame

data_train = pd.read_csv("./train.csv")
pd.DataFrame(data_train)
複製代碼

pandas 是經常使用的 python 數據處理包，把 csv 文件讀入成 dataframe 格式，在 jupyter notebook 中，能夠看到咱們的數據長什麼樣：微信

咱們就能夠把它看做一張 excel 表格，共有 12 列，891 行（表明在 train_csv 中共有 891 個乘客）。Survived 字段表明該乘客是否獲救（1 表明獲救，0 表明沒有獲救），其他是一些我的信息dom

passengerId => 乘客的 ID
Pclass => 乘客所在艙位的等級（一、二、3 等艙）
Name => 姓名
Sex => 性別
Age => 年齡
SibSp => 兄弟姐妹個數
Parch => 父母與小孩個數
Ticket => 船票信息
Fare => 票價
Cabin => 客艙信息
Embarked => 登船所在港口

data_train.info()
複製代碼

這裏告訴了我麼一些關於 data_train 的基本信息，好比共有 891 個乘客，可是有些字段的數據不全。好比 Age（年齡）、Cabin（客艙信息）。

data_train.describe()
複製代碼

在這裏咱們看到了什麼信息呢？從 mean 行中約有 0.38 的人最後獲救了，乘客的平均年齡爲 29.7 歲，平均票價爲 32.20

數據初步分析

每一個乘客大概有 12 種屬性提供給咱們，僅僅對於上面兩行操做對於數據的瞭解還沒法爲咱們提供想法和思路，咱們如今不知道哪些有用哪些對於模型沒有用，因此到了最關鍵的特徵工程環節。咱們知道最終的 output 是 Suvived，如今須要尋找最後的 Survived 與各個屬性之間有着什麼樣的內在關係。從大副的口中已經得知「要首先考慮婦女和兒童」。機器學習

for x in data1_x:
 if data1[x].dtype != 'float64' :
 print('Survival Correlation by:', x)
 print(data1[[x, Target[0]]].groupby(x, as_index=False).mean())
 print('-'*10, '\n')
 
print(pd.crosstab(data1['Title'],data1[Target[0]]))
複製代碼

在本圖中，咱們發現女性有 0.74 活下來，而男性只有 0.18。歪果盆友果真很尊重 lady，lady first 踐行得不錯。性別無疑要做爲重要特徵加入最後的模型之中。在 Pclass 中，客艙爲等級 1 的乘客獲救的機率高不少，嗯這個必定也影響最後獲救的結果（等級高的乘客必定也更有錢）。

fig = plt.figure()
fig.set(alpha=0.2) 
Survived_0 = data_train.Pclass[data_train.Survived == 0].value_counts()
Survived_1 = data_train.Pclass[data_train.Survived == 1].value_counts()
df=pd.DataFrame({'Survived':Survived_1, 'unSurvived':Survived_0})
df.plot(kind='bar', stacked=True)
plt.title("Survived status of all passenger classes")
plt.xlabel("passanger's level") 
plt.ylabel("number") 
plt.show()
複製代碼

從本圖中咱們能夠看到，明顯若是你是等級爲 1 的乘客，你的獲救機率就會很高。對了，這也是會最終影響輸出的獲救結果的一個特徵。

data_train.Age[data_train.Pclass == 1].plot(kind='kde') 
data_train.Age[data_train.Pclass == 2].plot(kind='kde')
data_train.Age[data_train.Pclass == 3].plot(kind='kde')
plt.xlabel("age")# plots an axis lable
plt.ylabel("dendity") 
plt.title("Age distribution of passengers levels")
plt.legend(('first level', 'second level','third level'),loc='best')
複製代碼

從各等級乘客的年齡分佈中，咱們能夠看到「不一樣艙位/乘客等級可能和財富/地位有關係，最後獲救機率可能會不同」，因此年齡也會是影響咱們最終結果的緣由之一。

簡單數據預處理

咱們對大致數據已經看過一遍了，對於感興趣的屬性也有了大概的瞭解。如今咱們須要簡單處理一下這些數據，爲機器學習建模作點準備了。先從最突出的數據屬性開始吧，Cabin 和 Age，由於這兩項有些乘客的信息不包含它們，有丟失的數據對於下一步的工做影響太大。性能

先說 Cabin，暫時咱們就按照剛纔說的，按 Cabin 有無數據，將這個屬性處理成 Yes 和 No 兩種類型吧。學習

再說 Age：測試

一般遇到缺值的狀況，咱們會有幾種常見的處理方式優化

若是缺值的樣本佔總數比例極高，咱們可能就直接捨棄了，做爲特徵加入的話，可能反倒帶入 noise，影響最後的結果了
若是缺值的樣本適中，而該屬性非連續值特徵屬性(好比說類目屬性)，那就把 NaN 做爲一個新類別，加到類別特徵中
若是缺值的樣本適中，而該屬性爲連續值特徵屬性，有時候咱們會考慮給定一個 step(好比這裏的 age，咱們能夠考慮每隔 2/3 歲爲一個步長)，而後把它離散化，以後把 NaN 做爲一個 type 加到屬性類目中。
有些狀況下，缺失的值個數並非特別多，那咱們也能夠試着根據已有的值，擬合一下數據，補充上。

本例中，由於 Cabin 不是影響最終結果的特徵之一。因此直接考慮別的須要用到的特徵（性別，等級，等級），並將其中的類目型轉化爲數值型特徵，咱們可使用 pandas 的「get_dummies」來完成這個工做，並接在原來的「data_train」上

dummies_Embarked = pd.get_dummies(data_train['Embarked'], prefix= 'Embarked')
dummies_Sex = pd.get_dummies(data_train['Sex'], prefix= 'Sex')
dummies_Pclass = pd.get_dummies(data_train['Pclass'], prefix= 'Pclass')

df = pd.concat([data_train, dummies_Embarked, dummies_Sex, dummies_Pclass], axis=1)
df.drop(['Pclass', 'Name', 'Sex', 'Ticket', 'Embarked'], axis=1, inplace=True)
df
複製代碼

na！咱們將這些類目屬性成功轉化爲 0，1 的數值屬性了。這樣看來，好像差很少都完成了，但是若是再看看 Age 和 Fare 兩個屬性，乘客關於這兩個屬性的數值變化幅度也太大了！！若是你們瞭解邏輯迴歸與梯度降低的話，會知道各屬性之間的 scale 差距太大，將對收斂速度形成很大的傷害（甚至不收斂）... 因此咱們先用 scikit-learn 裏面的 preprocessing 模塊對這兩個屬性作一個處理（就是將變化幅度較大的特徵化到 [-1,1] 內）

import sklearn.preprocessing as preprocessing
scaler = preprocessing.StandardScaler()
age_scale_param = scaler.fit(df['Age'])
df['Age_scaled'] = scaler.fit_transform(df['Age'], age_scale_param)
fare_scale_param = scaler.fit(df['Fare'])
df['Fare_scaled'] = scaler.fit_transform(df['Fare'], fare_scale_param)
df
複製代碼

嗯，這樣初級的數據處理就完成的差很少了

建模

我麼把須要的 feature 字段提取出來，轉成 numpy 格式，使用 scikit-learn 中的 LogisticRegression 建模。

from sklearn import linear_model
# 用正則取出咱們要的屬性值
train_df = df.filter(regex='Survived|Age_.*|SibSp|Parch|Fare_.*|Cabin_.*|Embarked_.*|Sex_.*|Pclass_.*')
train_np = train_df.as_matrix()
# y 即 Survival 結果
y = train_np[:, 0]
# X 即特徵屬性值
X = train_np[:, 1:]
# fit 到 RandomForestRegressor 之中
clf = linear_model.LogisticRegression(C=1.0, penalty='l1', tol=1e-6)
clf.fit(X, y)
clf
複製代碼

OK！！！經過這樣建模後，咱們獲得一個 model，而後再把 test.csv 經過一樣的數據簡單處理後，就能夠獲得預測結果了。

系統優化

等等，你覺得這樣就完了麼。這其實只完成了剛剛開始的一步，咱們只是作了一個 baseline model，一切都仍是基礎的，咱們還須要優化。

不過在如今的場景下，先不着急作這個事情，咱們這個 baseline 系統還有些粗糙，先再挖掘挖掘。

首先，Name 和 Ticket 兩個屬性被咱們完整捨棄了 (好吧，實際上是由於這倆屬性，幾乎每一條記錄都是一個徹底不一樣的值，咱們並無找到很直接的處理方式)。
而後，咱們想一想，年齡的擬合自己也未必是一件很是靠譜的事情，咱們依據其他屬性，其實並不能很好地擬合預測出未知的年齡。再一個，以咱們的平常經驗，小盆友和老人可能獲得的照顧會多一些，這樣看的話，年齡做爲一個連續值，給一個固定的係數，應該和年齡是一個正相關或者負相關，彷佛體現不出兩頭受照顧的實際狀況，因此，說不定咱們把年齡離散化，按區段分做類別屬性會更合適一些。（你們去 kaggle 上能夠看看大神的 kernels）