極測將來|淘寶"千人千面"內容下的智能評測技術與實踐

背景挑戰

全面個性化、內容化的淘寶,構造了基於內容的豐富的導購場景,包括猜你喜歡、有好貨、每日好店、必買清單、哇哦視頻、微淘、買家秀、頭條、洋蔥盒子….。個性化,給消費者帶來更精準的貨品分發。內容化爲消費者帶來更多驚喜和好的體驗,「好的商品,應該以更好的形式展示給消費者」。算法

不一樣於傳統測試業務,導購業務非肯定性的輸入輸出,給質量工做帶來的兩大挑戰,接下來會從這兩個方面介紹:小程序

  • 用戶側--千人千面導購推薦系統如何評估
  • 平臺側--多來源,多類型,高標準下如何高效管控素材質量

個性化評測

1.多維評估體系網絡

推薦系統模型研發過程包含離線特徵處理--模型網絡設計--離線訓練--離線預估--在線部署-- ab 實驗--模型優化。架構

一般的評估手段包含兩類:機器學習

  • 離線預估:從算法模型視角,包含 auc、f1score、precision、recall、NDCG 等指標
  • 在線評估:從業務效果視角,包含點擊率、轉化率、互動率、pv、uv 等指標

以上兩類評估手段在用戶體驗方面存在不足,會產生中長期用戶體驗詬病,好比買了還推,全域趨同等。基於此,咱們從五個維度定出了對於導購推薦全局評估指標體系:佈局

  • 豐富度:包含打散度、多樣性、覆蓋率等指標,打散度爲例,指同一坑位或者同一頁面,圖片主體,商品主體是否過於同質,是否有更豐富的商品推薦。
  • 友好度:包含曝光過濾、購買過濾等指標,買了還推等問題也是用戶對電商類推薦系統詬病比較集中的地方。用戶有比較,比價等相關延展性的消費訴求,但相比純內容推薦,用戶對電商類推薦疲勞度會更低。
  • 相關度:包含相關性、發現性等指標。推薦系統廣泛基於協同過濾策略,相關性對於短時間匹配效率和發現性對於中長期興趣、貨品挖掘,各有優劣,須要總體平衡。
  • 可信度:除涉黃、涉政等紅線標準,淘寶對於素材是否真實準確描述貨品要求極高。包含標題黨,主體糅雜,主體模糊,不完整,切割等。
  • 美觀度:牛皮蘚、構圖佈局,噁心主體等,好比特寫牙齒病,皮膚病等素材不適合在首頁、會場等公域場景透出。

2.統計學習評估流程性能

肯定了評估標準,評估流程包含如下幾大步驟,經過模型測試集輸出推薦結果,利用統計學習方法,進行指標自動計算,各指標相關性分析,進行總體業務評估度量。學習

爲何採用統計學習方法:測試

  • 更精準的指標刻畫:好比推薦商品打散度,服飾和箱包vs服飾和家裝,從傳統規則(類目、標籤等)分類,他們是同樣的差別,但運用word2vec,映射到高維向量空間,能更精準地去刻畫距離,用於打散度和多樣性等指標計算。
  • 多維度的全局評估:總體指標好壞是一個非凸優化的問題,各指標間有相互的平衡關係,每個場景在不一樣業務階段,關注的核心指標也會存在差別。須要經過統計學習的方法,進行相關性分析,因子分析等,在幾十個指標基礎上造成置信基線的全局評估。

例:下圖爲某導購場景評測指標相關性矩陣,橫縱分別爲各評測指標,例如在某一個階段,A指標和X指標正線性強相關,卻和Y指標負線性強相關。須要對評測指標進行綜合統計分析,才能對導購系統作出合理性的評估。大數據

3.當前結果

基於5個維度,創建多評測指標計算服務,產出指標合理性置信區間基線,運用於平常導購和大促會場等個性化評測。在淘寶大促個性化會場,及時發現打散不足、推薦不足、重複推薦、推薦趨同、視覺同圖等5類,250+個性化會場問題。提早優化,第一次評測總體經過率90%,經過多輪輪評測驗證,會場上線前總體經過率提高到99%。

素材質量管控

1.淘寶素材質量標準

電商平臺素材包含商家商品發佈、招商報名、導購選品、達人創做等來源,文本、圖像、商品、內容類等類型。素材質量對於用戶體驗、增加轉化、平臺質量都起到重要做用。而在這其中,圖像(圖片、視頻)做爲體驗表達的重要媒介,是咱們重點管控對象。

電商類業務在素材質量標準上,有如下三個特色(以某會場商品白底圖部分基礎規範爲例):

(1)素材信息表達要求準確:避免圖片與實物不符,誤導用戶,包含主體完整,單主體,無模特等要求。

(2)高質量圖片轉化效率更高:feeds流下用戶視覺輸入的信息量大,精美,佈局合理的圖片更能脫穎而出,有更好的轉化,平臺也能提供更好的用戶體驗,包含牛皮蘚、純白底、無陰影和摳圖等。

(3)不一樣場景顆粒度差別:好比商品主圖的牛皮蘚,在公域會場和性價比營銷場景,標準顆粒度不同(輕微可接受、輕微不可接受)。

2.素材質量管控方案

因此素材質量管控方案,須要考慮不一樣場景檢測能力可以快速生成,甚至是可以讓業務運營同窗參與進來。基於此,淘寶內容導購質量團隊與淘寶基礎算法團隊合做,基於多任務共享特徵網絡模型,構建圖像質量檢測服務方案--水滴。經過快速圖像檢測能力生成,解決不一樣場景劣質素材質量運營的問題,提高素材質量和用戶體驗。

總體方案:

將模型訓練研發過程樣本獲取,特徵處理,構建訓練模型網絡,參數調優等工做經過共享模型訓練和統一平臺方式消減。快速、複用、靈活泛化的多模型產生。例:牛皮癬檢測模型1,牛皮癬檢測模型2,牛皮癬檢測模型n…,並經過持續樣本調整,構建運營業務標準和建模橋樑。

共享模型策略特色:

  • 多任務共享特徵提升識別效率:多任務遷移學習網絡模型,各個任務共享基礎特徵,減小基礎特徵重複計算,提升預測效率;多任務網絡模型,各個任務共享基礎特徵,能夠減小深度網絡模型對各個任務的訓練數據量需求,好比對於牛皮癬、logo、水印等高度類似任務,特徵具備高度類似性,能夠顯著提升各任務識別精度。但當任務間類似程度不是很⼤狀況,會增長模型的擬合難度,爲此咱們採⽤ CurriculumLearning 訓練策略、從簡到難逐步進行網絡學習,同時模型上也結合半監督正則項,充分利用了海量無標籤數據,進一步提升精度。

  • 噪聲樣本識別提升模型精度:循環學習策略識別噪聲標籤樣本,提升訓練數據質量,進而提升模型最終識別精度;詳見論文《O2U-Net: ASimple Noisy Label Detection Approach for Deep Neural Networks》,已被 ICCV (國際計算機視覺大會)採錄。

爲了提升模型最終精度,深度網絡對於訓練數據精度要求很高,然而不少圖像質量任務都存在邊界定義模糊、難標註等問題,致使訓練數據每每存在噪聲標籤,爲了解決圖像質量數據難標註、噪聲問題,咱們提出一種噪聲標籤識別方法:經過採用循環學習策略方法,使得模型反覆在 overfifitting 和 underfifitting 之間相互轉換,網絡在這種學習過程當中乾淨標籤樣本和噪聲標籤樣本會出現明顯的區分性特徵,利用這種方法能夠幫助咱們很快找到那些訓練數據集中的噪聲標籤樣本,提升訓練數據質量,最終保證模型精度。

工程架構和運起色制:

3.當前結果

創建牛皮癬、多主體、模特衣架、低俗情趣、水印、二維碼等 40+ 劣質素材檢測模型,提供離在線檢測服務,周均 2 億+服務運行,對導購業務各種商品、內容劣質素材從供給端進行質量檢測,卡口治理,累計檢測出劣質素材 7500 萬+,並下線過濾。

擴展—無線CVT測試

除了用於素材質量總體管控,咱們也在思考是否能將視覺技術引入測試領域,構造檢測斷言,用計算機代替測試人員的眼睛,這樣高效,精準(像素級)發現問題,自動迴歸。基於此,構造了CVT--基於計算機視覺技術的自動化測試方案並落地實施。

基於feeds流的無線測試一般涉及到這些方面工做

  • 多機多版本下適配測試
  • 容災測試(當服務端或模型產生異常,兜底數據方案是否會正確透出)
  • 異常檢測(是否出現空窗,白屏,錯誤提示框等)
  • 視覺佈局檢測(文字截圖,重疊,佈局留白等,視覺要求像素級標準檢測)
  • 性能測試(咱們須要準確採集各機型毫秒級真實體感的渲染時間、可交互時間等)

經過目標檢測、輪廓提取、ocr、以及快速機器學習多任務模型生成能力,全面運用到以上上線前內部的測試工做中。

例:CVT適配自動化測試

例:CVT視覺異常檢測(空窗、白屏、錯誤框、模糊、截斷等...)

3.當前結果

覆蓋淘系大促會場、導購、二三方小程序、拍賣、阿里衆籌等業務場景,運行總任務數5500+個,發現問題近100個,包括視覺還原像素級、空坑、多餘留白、文本覆蓋、文本截斷、服務異常等問題。

整體展望

大數據系統質量評估須要業務、算法、體驗目標三位一體綜合衡量。數學思想、統計方法與質量工做結合,很好提高測試效率和科學性。咱們今年會持續在更多質量領域,好比數據質量,素材質量運營,無線測試驅動,去深化演進質量體系,爲用戶帶來極致的體驗。


原文連接 本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索