第 5 章機器學習技術的應用(上)

時間 2021-03-08

標籤 html 前端算法編程架構機器學習學習測試優化架構設計欄目 HTML 简体版

原文原文鏈接

機器學習技術概述

讓計算機在沒有被顯示編程的狀況下具備自主學習的能力;算法

學習出特徵和目標之間具體的相關性;編程

學習結果的用法: 預測, 推斷(inference);架構

在架構設計和代碼開發以前, 要對待解決問題進行分析, 對系統優化目標進行拆解;

問題現狀分析

搞清楚系統情況, 包括算法, 數據, 運行方式, 數據與線上交互, 模塊前端展現等;

優先處理 ROI(投入產出比)高的事情;
問題歸因拆解

將最終的待達成目標拆解爲多個可執行的具體工做;

例如: 提高購買轉化率 => 用戶看到曝光商品+用戶進行購買 => 用戶看到曝光商品+用戶進行點擊 AND 用戶進行點擊+用戶進行購買;
設計指標體系

實施機器學習系統須要的指標體系:
- 監控機器學習系統自己效果好壞的指標; (例如: AUC 等離線評估指標和點擊率等線上監控指標)
- 對機器學習系統所服務和影響的大系統的各方面指標; (例如: 用戶平均停留時長, 平均跳出率, 平均分享率等)

若是沒法衡量, 就沒法優化

機器學習模型的構建流程主要包括: 樣本處理+特徵處理+模型訓練;

又能夠分爲:

算法維度: 對各類數據進行邏輯處理; 描述系統邏輯的維度;

架構維度: 具體實施時經過怎樣的架構實現算法邏輯; 描述具體實施方案的維度;

樣本的質量決定了模型效果的好壞;

典型的點擊率模型場景下, 通常存在三份日誌:

涉及兩項關鍵工做:

獲取到足量, 準確的樣本數據;
- 爬蟲, 做弊和異常數據的去除;
- 使用統計數據驗證樣本的準確性; (例如: 平均點擊率, 用戶點擊率分佈)
- 移動端數據收集機制的設計; (例如: 只發送曝光的最後一個物品的信息, 配合日誌獲取其餘曝光物品)
- 儘可能多的保留上下文信息;
在訓練時對樣本進行選取, 以期獲得更好的訓練效果;
- 樣本隨機打散;
  
  機器學習模型的訓練和評測中, 要求樣本是隨機分佈的;
  - 從總體樣本中劃分訓練集和測試集, 要求是同分布的;
  - 經常使用的模型優化方法, 都會分批取樣原本訓練模型, 要求樣本分佈是隨機的;
- 正負樣本採樣;
  
  正負樣本誤差嚴重時, 可採用正樣本升採樣和負樣本降採樣; 去除冗餘樣本, 邊界樣本, 噪聲樣本等, 或者隨機丟棄相應比例的負樣本;
- 負樣本劃分模型組合;
- 樣本可信度處理;