Follow me!百萬獎金由你拿 | 精準資助機器學習（三）

時間 2019-12-01

標籤 follow 百萬獎金精準資助機器學習简体版

原文原文鏈接

經過前面兩篇的數據探索，咱們對教育精準資助的數據已經有所瞭解了，接下來咱們就要創建模型來進行機器學習了。算法

1、機器學習之分類概況機器學習

大千世界中「人以類聚，物以羣分」，就是指具備相同（或相近）特徵的事物老是歸於一類或者說能聚在一塊兒的事物老是擁有相同（或相近）的特徵。函數

機器學習最基本的研究就是解決分類問題，好比哪些郵件是垃圾郵件，哪些郵件是正常郵件，哪些訪問（日誌）是正常的，哪些訪問是不正常的。對於咱們此次教育競賽來說就是要分出哪些人須要資助1000，哪些人須要資助1500，哪些人須要資助2000，哪些人不須要資助的問題。學習

解決這些問題最常規的辦法是編寫規則條件，知足某個條件是什麼類，知足另外的條件是什麼類。當問題複雜到必定程度，即不能寫出明確的規則或者規則很複雜時就能夠考慮用機器學習的方法來解決。優化

那麼機器又是如何學習的呢？看下圖：日誌

首先，機器學習是要數據的，並且是兩類數據：一類能標識人（和物）的特徵數據，如每一人的消費次數，消費總額，單筆最大等等;另外一類則是標記了人的分類的答案數據（或標記數據），就是須要人根據經驗來告訴機器哪些人是一類的，哪些物是一類的。這樣再選擇合適的算法，讓機器來學習。給的數據越多，機器就學習的越多，機器就會變得越」聰明「。咱們把這個機器學習的過程叫作訓練，訓練的結果就是模型。有了這個模型後，就能夠進行預測，看下圖：對象

首先是要預測的數據的格式和特徵數據的格式同樣，不能添加或減小特徵，也不能變動特徵的名稱和順序，而後使用模型來預測，最後就會獲得預測結果。索引

整個機器學習的過程就是這樣了，還簡單吧，下面咱們就用教育資助的數據操練起來。部署

2、機器學習過程test

（一）數據準備

精準資助主要集中反映在平常的消費數據中，咱們先使用消費數據來構造特徵數據和標記數據（答案數據）。

特徵數據的一個要求是使用一行來描述一個對象（人或物），對象是不重複的，特徵數據均爲數字類型，不能出現其餘類型，若是是字典類型，如性別男女也應該用0,1表示。

標記數據的要求是和特徵數據一一對應，一樣一行表明一我的（或物），標記須要使用整數形，一個數表明了一個分類。這裏的專業叫法是標稱型（變量），取值是有限的整數，不能是小數（分類再多總有個最大值的，小數就不知道是哪一類的了，呵呵）。和標稱型對應的是數值型，若是標記的答案是數值型的，那就不是分類問題了，與之相對應的是機器學習的另外一類應用迴歸。

Part one：以同窗ID爲對象來計算消費特徵數據

一、加載一卡通訓練數據

二、修改列名

分別修改字段0、一、二、三、四、五、6爲id、pos、address、catalog、time、cost、have

三、根據id進行分組，而後根據cost字段計算每一個人的消費狀況（消費總額，單次最大消費，單詞最小消費，消費均值，消費中位數，消費次數），結果保存到df表card_cost。

輸入如下統計函數：

cost_sum:sum,cost_max:max,cost_min:min,cost_mean:mean,cost_meidan:median,cost_count:count

四、而後計算卡內餘額（最大值，最小值，平均值），結果保存到df表card_have

輸入如下統計函數：

have_max:max,have_min:min,have_mean:mean,have_median:median

五、兩張合起來，一我的的消費情況就很是清晰了

六、查看關聯後的表