用Python開啓你的機器學習之路_Python基礎教程

用Python開啓機器學習之路,下面爲你們分享的是Python基礎教程機器學習。python

隨着行業內機器學習的崛起,可以幫用戶快速迭代整個過程的工具變得相當重要。Python,機器學習技術領域冉冉升起的一顆新星,每每是帶你走向成功的首選。所以,用 Python 實現機器學習的指南是很是必要的。算法

用 Python 實現機器學習的介紹編程

那麼爲何是 Python 呢?根據個人經驗,Python 是最容易學習的編程語言之一。如今須要快速迭代整個過程,與此同時,數據科學家不須要深刻了解這種語言,由於他們能夠快速掌握它。數組

有多容易呢?瀏覽器

for anything in the_list:
    print(anything)複製代碼

就這麼容易。Python 的語法和英語(或人類語言,而不是機器語言)語法關係密切。在 Python 的語法中沒有愚蠢的大括號形成的困擾。我有一個從事質量保證(Quality Assurance)工做的同事,雖然不是軟件工程師,但她能夠在一天內寫出產品級的 Python 代碼。(真的!)bash

我將在下文中介紹幾個基於 Python 的庫。做爲數據分析師和數據科學家,咱們能夠利用他們的傑做來幫助咱們完成任務。這些難以想象的庫是用 Python 實現機器學習的必備工具。微信

NumPyapp

這是一個很是有名的數據分析庫。從計算數據分佈的中位數,處處理多維數組,NumPy 均可以幫你完成。dom

Pandas機器學習

這是用來處理 CSV 文件的。固然了,你還須要處理一些表格、查看統計數據等,那 Pandas 就是能夠知足你的需求的工具。

Matplotlib

把數據存儲在 Pandas 的數據框後,你可能須要作一些可視化來理解數據的更多信息。畢竟一圖抵千言。

Seaborn

這是另外一個可視化工具,但這個工具更側重於統計結果的可視化,好比直方圖、餅圖、曲線圖或相關性表等。

Scikit-Learn

這是用 Python 實現機器學習的終極工具。所謂用 Python 實現機器學習指的就是這個——Scikit-Learn。全部你須要的從算法到提高的內容都能在這裏找到。

Tensorflow 和 Pytorch

針對這兩個工具我不會說太多。但若是你對深度學習感興趣的話,能夠詳細瞭解一下,它們值得你花時間去學習。(我下次會再寫一篇關於深度學習的教程,敬請期待!)

Python 機器學習項目

示例項目:

泰坦尼克:從災難中進行機器學習(www.kaggle.com/c/titanic

就是衆所周知的泰坦尼克號。這是一場發生在 1912 年的災難,這場災難波及到的乘客和機組成員共 2224 人,其中 1502 人遇難死亡。這項 Kaggle 競賽(或者說是教程)提供了災難中的真實數據。你的任務是解釋這些數據,並預測出災難中哪些人會活下來,哪些人不會。

用 Python 實現機器學習的教程

在深刻了解泰坦尼克號的數據以前,咱們要先安裝一些必需的工具。

首先固然是 Python。第一次安裝 Python 須要從官網上安裝。你要安裝 3.6 以上的版本,這樣才能跟最新版本的庫保持同步。

Python 官方網站:www.python.org/downloads/

而後能夠用 Python 的 pip 安裝全部的庫。你剛剛下載的 Python 發行版會自動安裝 pip。

須要的其餘工具均可以用 pip 安裝。打開終端、命令行或 PowerShell,命令以下:

pip install numpy
pip install pandas
pip install matplotlib
pip install seaborn
pip install scikit-learn
pip install jupyter複製代碼


看起來一切都運行良好。可是等一下,什麼叫 jupyter?jupyter 表示 Julia、Python 和 R,所以它其實是 Jupytr。但這個單詞看起來太奇怪了,因此他們把它變成了 Jupyter。這是一個頗有名的筆記本,你能夠在這個筆記本上寫交互式的 Python 代碼。


只要在終端中輸入 jupyter notebook,就能夠打開以下圖所示的瀏覽器頁面:




你能夠把代碼寫在綠色矩形中,並且能夠交互式地編寫並評價 Python 代碼。

如今你已經安裝了全部的工具。咱們開始吧!

數據探索

探索數據是第一步。你須要從 Kaggle 的 Titanic 頁面下載數據,而後將下載的數據放到你啓動 Jupyter 筆記本的文件夾中。

數據下載地址:www.kaggle.com/c/titanic/d…

而後導入必要的庫:

import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline複製代碼

載入數據:

train_df=pd.read_csv("train.csv")
train_df.head()複製代碼

輸出以下:

這就是咱們的數據。它有下面幾列:

  • PassengerId,乘客的標識符;
  • Survived,他(她)是否存活了下來;
  • Pclass,艙室類別,也許 1 表示經濟艙,2 表示商務艙,3 表示頭等艙;
  • Name,乘客的名字;
  • Sex,性別;
  • Age,年齡;
  • SibSp,即兄弟姐妹(siblings)或配偶(spouses),表示在船上的兄弟姐妹以及配偶的數目;
  • Parch,即父母(Parents)或子女(Children),表示在船上的父母和子女的數目;
  • Ticket,船票詳情;
  • Cabin,艙號,NaN 表示未知;
  • Embarked,登船的起始地,S 表示南安普頓(Southampton),Q 表示皇后鎮(Queenstown),C 表示瑟堡(Cherbourg)

在探索數據時,經常會遇到數據缺失的問題。咱們來看一下

def missingdata(data):
    total = data.isnull().sum().sort_values(ascending = False)
    percent = (data.isnull().sum()/data.isnull().count()*100).sort_values(ascending = False)
    ms=pd.concat([total, percent], axis=1, keys=['Total', 'Percent'])
    ms= ms[ms["Percent"] > 0]
    f,ax =plt.subplots(figsize=(8,6))
    plt.xticks(rotation='90')
    fig=sns.barplot(ms.index, ms["Percent"],color="green",alpha=0.8)
    plt.xlabel('Features', fontsize=15)
    plt.ylabel('Percent of missing values', fontsize=15)
    plt.title('Percent missing data by feature', fontsize=15)
    return ms
missingdata(train_df)複製代碼

咱們會看到這樣的結果:


艙號、年齡以及登船地的數據都有一些缺失值,而艙號信息有大量的缺失。咱們須要對它們進行處理,也就是所謂的數據清理(Data Cleaning)。

數據清理

咱們 90% 的時間都花在這上面。咱們要針對每個機器學習項目進行大量的數據清理。當數據清理乾淨時,咱們就能夠輕鬆地進行下一步了,什麼都不用擔憂。

數據清理中最經常使用的技術是填充缺失數據。你能夠用衆數、平均數或中位數來填充缺失數據。選擇這些數據沒有絕對規則,你能夠一一嘗試,而後看看它們的表現如何。可是根據經驗來說,分類數據只能用衆數,連續數據能夠用中位數或平均數。因此咱們用衆數來填充登船地數據,用中位數來填充年齡數據。

train_df['Embarked'].fillna(train_df['Embarked'].mode()[0], inplace = True)
train_df['Age'].fillna(train_df['Age'].median(), inplace = True)複製代碼

接下來的重要操做是刪除數據,尤爲針對大量缺失的數據。咱們針對艙號數據進行如下處理:

drop_column = ['Cabin']
train_df.drop(drop_column, axis=1, inplace = True)複製代碼

如今檢查一下清理過的數據。

print('check the nan value in train data')
print(train_df.isnull().sum())複製代碼


完美!沒有任何缺失數據了!這表示數據已經清理乾淨了。

特徵工程

如今數據已經清理乾淨了。接下來咱們要進行特徵工程。

特徵工程基本上就是根據當前可用數據發現特徵或數據的技術。有幾種方法能夠實現這種技術。在不少時候這都是常識。

咱們以登船地數據爲例——這是用 Q、S 或 C 填充的數據。Python 庫不能處理這個,由於它只能處理數字。因此你須要用所謂的獨熱向量化(One Hot Vectorization)來處理,它能夠把一列變成三列。用 0 或 1 填充 Embarked_Q、Embarked_S 和 Embarked_C,來表示這我的是否是從這個港口出發的。

再以 SibSp 和 Parch 爲例。這兩列沒有什麼有趣的,可是你可能會想知道某個乘客有多少家人登上了這艘船。若是家人多的話可能會增長生存概率,由於他們能夠互相幫助。從另外一個角度說,單獨登船的乘客可能很難生存下去。

所以你能夠建立新的一列,這一列是成員數量(family size),family size = SibSp + Parch + 1(乘客本身)。

最後一個例子是以 bin 列爲例的。因爲你認爲很難區分具備類似值的事物,因此這種操做建立了值範圍(ranges of values),而後將多個值組合在一塊兒。好比,5 歲和 6 歲的乘客之間有顯著的差別嗎?或者 45 和 46 歲的人之間有顯著的差別嗎?

這就是建立 bin 列的緣由。也許就年齡而言,咱們能夠建立 4 列——幼兒(0~14 歲)、青少年(14~20 歲)、成年人(20~40 歲)以及年長的人(40 歲以上)。

編碼以下:

all_data = train_df
for dataset in all_data :
    dataset['FamilySize'] = dataset['SibSp'] + dataset['Parch'] + 1
import re
# Define function to extract titles from passenger names
def get_title(name):
    title_search = re.search(' ([A-Za-z]+)\.', name)
    # If the title exists, extract and return it.
    if title_search:
        return title_search.group(1)
    return ""
# Create a new feature Title, containing the titles of passenger names
for dataset in all_data:
    dataset['Title'] = dataset['Name'].apply(get_title)
# Group all non-common titles into one single grouping "Rare"
for dataset in all_data:
    dataset['Title'] = dataset['Title'].replace(['Lady', 'Countess','Capt', 'Col','Don', 
                                                 'Dr', 'Major', 'Rev', 'Sir', 'Jonkheer', 'Dona'], 'Rare')
dataset['Title'] = dataset['Title'].replace('Mlle', 'Miss')
    dataset['Title'] = dataset['Title'].replace('Ms', 'Miss')
    dataset['Title'] = dataset['Title'].replace('Mme', 'Mrs')
for dataset in all_data:
    dataset['Age_bin'] = pd.cut(dataset['Age'], bins=[0,14,20,40,120], labels=['Children','Teenage','Adult','Elder'])
for dataset in all_data:
    dataset['Fare_bin'] = pd.cut(dataset['Fare'], bins=[0,7.91,14.45,31,120], labels ['Low_fare','median_fare', 'Average_fare','high_fare'])

traindf=train_df
for dataset in traindf:
    drop_column = ['Age','Fare','Name','Ticket']
    dataset.drop(drop_column, axis=1, inplace = True)
drop_column = ['PassengerId']
traindf.drop(drop_column, axis=1, inplace = True)
traindf = pd.get_dummies(traindf, columns = ["Sex","Title","Age_bin","Embarked","Fare_bin"],
                             prefix=["Sex","Title","Age_type","Em_type","Fare_type"])複製代碼

如今,你已經建立完成全部的特徵了。接着咱們看看這些特徵之間的相關性:

sns.heatmap(traindf.corr(),annot=True,cmap='RdYlGn',linewidths=0.2) #data.corr()-->correlation matrix
fig=plt.gcf()
fig.set_size_inches(20,12)
plt.show()複製代碼

相關值接近 1 意味着高度正相關,-1 意味着高度負相關。例如,性別爲男和性別爲女之間就呈負相關,由於必須將乘客識別爲一種性別(或另外一種)。此外,你還能夠看到,除了用特徵工程建立的內容外,沒有哪兩種是高度相關的。這證實咱們作得對。

若是某些因素之間高度相關會怎麼樣?咱們能夠刪除其中的一個,新列中的信息並不能給系統提供任何新信息,由於這二者是徹底同樣的。

用 Python 實現機器學習

如今咱們已經到達本教程的高潮——機器學習建模。

from sklearn.model_selection import train_test_split #for split the data
from sklearn.metrics import accuracy_score  #for accuracy_score
from sklearn.model_selection import KFold #for K-fold cross validation
from sklearn.model_selection import cross_val_score #score evaluation
from sklearn.model_selection import cross_val_predict #prediction
from sklearn.metrics import confusion_matrix #for confusion matrix
all_features = traindf.drop("Survived",axis=1)
Targeted_feature = traindf["Survived"]
X_train,X_test,y_train,y_test = train_test_split(all_features,Targeted_feature,test_size=0.3,random_state=42)
X_train.shape,X_test.shape,y_train.shape,y_test.shape複製代碼

Scikit-Learn 庫中有多種算法供你選擇:

  • 邏輯迴歸
  • 隨機森林
  • 支持向量機
  • K 最近鄰
  • 樸素貝葉斯
  • 決策樹
  • AdaBoost
  • LDA
  • 梯度加強

你可能感到不知所措,想弄清什麼是什麼。別擔憂,只要將它當作「黑箱」對待就好——選一個表現最好的。(我以後會寫一篇完整的文章討論如何選擇這些算法。)

以我最喜歡的隨機森林算法爲例:

from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(criterion='gini', n_estimators=700,
                             min_samples_split=10,min_samples_leaf=1,
                             max_features='auto',oob_score=True,
                             random_state=1,n_jobs=-1)
model.fit(X_train,y_train)
prediction_rm=model.predict(X_test)
print('--------------The Accuracy of the model----------------------------')
print('The accuracy of the Random Forest Classifier is', round(accuracy_score(prediction_rm,y_test)*100,2))
kfold = KFold(n_splits=10, random_state=22) # k=10, split the data into 10 equal parts
result_rm=cross_val_score(model,all_features,Targeted_feature,cv=10,scoring='accuracy')
print('The cross validated score for Random Forest Classifier is:',round(result_rm.mean()*100,2))
y_pred = cross_val_predict(model,all_features,Targeted_feature,cv=10)
sns.heatmap(confusion_matrix(Targeted_feature,y_pred),annot=True,fmt='3.0f',cmap="summer")
plt.title('Confusion_matrix', y=1.05, size=15)複製代碼

哇哦!準確率高達 83%。就第一次嘗試而言,這個結果已經很好了。

交叉驗證分數的意思是 K 折驗證方法。若是 K=10,就是說要把數據分紅 10 個變量,計算全部分數的均值,並將它們做爲最終分數。

微調

如今你已經完成了用 Python 實現機器學習的步驟。但再加一個步驟可讓你獲得更好的結果——微調。微調的意思是爲機器學習算法找到最佳參數。以上面的隨機森林代碼爲例:

model = RandomForestClassifier(criterion='gini', n_estimators=700,
                             min_samples_split=10,min_samples_leaf=1,
                             max_features='auto',oob_score=True,
                             random_state=1,n_jobs=-1)複製代碼

你須要設置許多參數。順便說一下,上面的都是默認值。你能夠根據須要改變參數。但固然了,這須要花費不少時間。

別擔憂——有一種叫作網格搜索(Grid Search)的工具,它能夠自動找出最佳參數。聽起來還不錯,對吧?

# Random Forest Classifier Parameters tunning 
model = RandomForestClassifier()
n_estim=range(100,1000,100)
## Search grid for optimal parameters
param_grid = {"n_estimators" :n_estim}
model_rf = GridSearchCV(model,param_grid = param_grid, cv=5, scoring="accuracy", n_jobs= 4, verbose = 1)
model_rf.fit(train_X,train_Y)
# Best score
print(model_rf.best_score_)
#best estimator
model_rf.best_estimator_複製代碼

你們能夠本身嘗試一下,並從中享受機器學習的樂趣。

總結

其實用 Python 實現機器學習很簡單。開始學起來吧!!!

——文章參考自微信公衆號:小詹學Python

相關文章
相關標籤/搜索