原文html
全文目錄前端
讓計算機在沒有被顯示編程的狀況下具備自主學習的能力;算法
學習出特徵和目標之間具體的相關性;編程
學習結果的用法: 預測, 推斷(inference);架構
推薦系統的本質是匹配;機器學習
推薦結果排序學習
傳統的方式是利用公式來定義排序規則, 機器學習是選擇具備良好描述能力的規則系統來服務於系統;測試
用戶興趣建模優化
用戶興趣的捕捉和預測, 捕捉即對用戶行爲的客觀記錄; 預測則基於行爲記錄對用戶未來可能感興趣的內容進行預測;架構設計
候選集召回
相似排序問題;
優勢:
收集訓練樣本
老系統中已有的樣本數據;
曝光誤差(impression bias)比較小;
曝光誤差: 系統是否會傾向於曝光某一類型的物品, 致使其餘類型物品曝光不足, 在總體數據上產生曝光誤差的問題;
收集業務規則
解決問題的模型, 多數狀況下都是以邏輯迴歸和決策樹爲表明的淺層模型, 即大量的被量化的規則;
機器學習即規模化的量化規則;
量化: 將以前人工指定的規則, 利用數據和算法, 針對具體的優化目標進行量化;
規模化: 機器學習能夠用相對自動化的方法讓規則的數量增長几個量級;
肯定系統目標
基於老系統基礎上使用機器學習技術進行技術升級和改造, 目標是和老系統一致的;
在架構設計和代碼開發以前, 要對待解決問題進行分析, 對系統優化目標進行拆解;
問題現狀分析
搞清楚系統情況, 包括算法, 數據, 運行方式, 數據與線上交互, 模塊前端展現等;
優先處理 ROI(投入產出比)高的事情;
問題歸因拆解
將最終的待達成目標拆解爲多個可執行的具體工做;
例如: 提高購買轉化率 => 用戶看到曝光商品+用戶進行購買 => 用戶看到曝光商品+用戶進行點擊 AND 用戶進行點擊+用戶進行購買;
設計指標體系
實施機器學習系統須要的指標體系:
若是沒法衡量, 就沒法優化
機器學習模型的構建流程主要包括: 樣本處理+特徵處理+模型訓練;
又能夠分爲:
算法維度: 對各類數據進行邏輯處理; 描述系統邏輯的維度;
架構維度: 具體實施時經過怎樣的架構實現算法邏輯; 描述具體實施方案的維度;
樣本的質量決定了模型效果的好壞;
典型的點擊率模型場景下, 通常存在三份日誌:
涉及兩項關鍵工做:
獲取到足量, 準確的樣本數據;
在訓練時對樣本進行選取, 以期獲得更好的訓練效果;
樣本隨機打散;
機器學習模型的訓練和評測中, 要求樣本是隨機分佈的;
正負樣本採樣;
正負樣本誤差嚴重時, 可採用正樣本升採樣
和負樣本降採樣
; 去除冗餘樣本
, 邊界樣本
, 噪聲樣本
等, 或者隨機丟棄相應比例的負樣本;
負樣本劃分模型組合;
樣本可信度處理;