小紅脣APP經過大數據計算平臺21天內搭建推薦系統

雲棲號案例庫: 【點擊查看更多上雲案例】 不知道怎麼上雲?看雲棲號案例庫,瞭解不一樣行業不一樣發展階段的上雲方案,助力你上雲決策!

公司簡介前端


小紅脣App是國內最大的一款針對15-25歲年輕女性的垂直視頻分享社區和社交化電商平臺,業務模式爲短視頻美妝社區電商。咱們爲用戶提供了豐富的平臺內容、活躍的社區生態和優質的產品選擇。mysql

業務痛點算法


  • 數據倉庫:

1.須要在打造在線數倉,在線完成數據開發、數據清洗和轉換等任務。 2.經過數倉構建可視化數據展現的應用,即時展現營收數據,便於運營和決策快速調整。sql

  • 推薦引擎:打造短視頻和圖片的推薦引擎,須要具有便捷性和靈活性的在線產品,支持多種算法和過濾體系。
  • 算法平臺應用:

1.基於視頻元信息的迴歸:做爲一個UGC的平臺,用戶上傳內容的質量是良莠不齊的,爲了保證平臺內容的質量。編輯進行了不少精選和挑選的工做。如何提高編輯的篩選效率是當前須要解決的關鍵問題。 2.近義詞:須要有一套高效的算法優化搜索的體驗,使用戶在搜索時更容易得到目標內容。 3.業務總線:須要提高一些應用場景(搜索熱詞統計、實時熱度統計)的響應速度、實時觸發業務事件,支撐相似於發送優惠券、推送消息等業務。數據庫

數據倉庫解決方案安全


小紅脣App的數據來源主要爲兩個方面,當全部數據都搬到MaxCompute平臺上以後,在其上作的數據開發更加輕鬆。服務器

  • 業務服務器產生的API日誌,表明着用戶的各類行爲數據。用戶行爲日誌是經過阿里雲的DataHub組件把API日誌採集到MaxCompute平臺上,只須要在數加的IDE裏作一些簡單的配置便可將數據完整的遷移過來。
  • 服務器產生的各類交易數據,好比用戶發的帖子、買的東西。業務數據是經過阿里雲提供的DATAX工具載入到MaxCompute平臺上,業務數據庫已經徹底遷移到了阿里的RDS平臺。 在MaxCompute平臺上,能夠用類SQL的語句編寫數據清洗和轉換的執行任務,平臺同時提供管理器對任務進行調度和管理。在數倉之上,構建了不少應用,最直接的就是QUICK BI。社區內容運營和商品運營都是依賴於實際的運營數據來作進一步的決策和運營商的策略調整,QUICK BI對運營的指導很是大。
  • 阿里雲的QUICK BI不須要開發可視化的前端,只須要在數加的data IDE裏面作相應數據任務的編排就能夠很容易的經過QUICK BI產品展現出來。
  • 在QUICK BI可視化的界面上不只有各類圖表的展示還提供了必定功能的多維數據分析,極大提升了運營效率。

推薦引擎解決方案架構


推薦引擎的總體架構如上圖所示。虛線框之內是推薦引擎產品自己的內容。咱們須要作的僅僅是把咱們的數據按照推薦引擎須要的格式準備好,在MaxCompute裏面把對應的表都建好。主要應用場景是短視頻和圖片的推薦,推薦引擎打理好一切以後,獲得推薦結果以API形式供業務服務器調用。運維

除了便捷性,推薦引擎還提供了很是強的靈活性。主要作了首頁推薦和詳情頁推薦,首頁推薦主要是用基於協同過濾的算法來計算出結果,詳情頁推薦對阿里雲的模板進行了修改引入了基於TFIDF算法的計算節點來增強了相關性的推薦。同時,推薦引擎還支持A/B TEST測試體系,對模板算法和參數的細微調整均可以定量化的分析和計算出來。推薦引擎的另一個優點是能夠和阿里雲實時計算相結合,把用戶的數據實時導入計算引擎中,實時對推薦結果進行修正。機器學習

算法平臺解決方案


  • 基於視頻元信息的迴歸

做爲一個UGC的平臺,用戶上傳內容的質量是良莠不齊的,爲了保證平臺內容的質量。編輯進行了不少精選和挑選的工做。如何提高編輯的篩選效率?爲此,咱們選擇了阿里雲的機器學習平臺。經過視頻的元信息(時長,幀率,碼率,描述內容,亮度,對比度,分辨率,銳度)的抽取,造成了特徵矩陣,隨機選取了已有視頻數據;以是否通過編輯精選作了有監督的邏輯迴歸訓練,訓練出模型;對新的視頻應用這個模型給出預判評估,做爲視頻編輯的參考, 及搜索推薦的影響因子。

具體的過程如上圖所示。咱們須要將本身的視頻信息進行量化,經過拖拽、拼接構建起訓練的模型。最左邊這張圖應用了邏輯迴歸、線性迴歸、隨機森林三種模型進行訓練,目前選用的是邏輯迴歸的模型。在算法平臺訓練完模型以後會很是容易的導入到DateWorks中,準備好的新視頻數據就會把模型節點加進去,獲得對應的預測打分。最右邊的圖是把評分結果經過QUICK BI展現。整個過程沒有太多的工做量,只須要在平臺上作一些配置就能夠完成整個視頻元信息的迴歸和訓練。

  • 近義詞

近義詞主要是爲了優化搜索的體驗,具體是把用戶發佈的內容、視頻的名稱、描述、用戶的標籤、評論等語料信息經過阿里雲實時計算word2vec算法獲取詞向量,經過餘弦類似度計算獲取近義詞,經過人工篩選、錄入到搜索引擎的同義詞庫中提高搜索體驗。

最上層是用戶輸入的元數據,經過幾個步驟,以及K-means聚類算法作了一些分析。

  • 業務總線

最開始使用阿里雲實時計算只是爲了提高一些應用場景(搜索熱詞統計、實時熱度統計)的響應速度。可是,經過阿里雲實時計算已經截取了全部的業務事件,那麼是否能夠經過實時計算將業務事件實時觸發出來支撐相似於發送優惠券、推送消息等業務?實踐證實了其可行性。目前,經過阿里雲實時計算這套業務總線體系的時延控制在了秒級。

上雲價值


小紅脣App擁抱數加已有半年光景,對數加的體驗很是好,其感覺主要爲如下四點:

  • 不須要像傳統大數據業務同樣構建一個很是複雜的Hadoop棧,而且對其進行運維,節省了金錢和時間成本。
  • MaxCompute的整個生態系統設計的比較完善,無需專職數據團隊,下降了人員成本。
  • 得益於數加的生態,能夠在21天內搭建推薦系統。
  • 藉助阿里雲實時計算非侵入實現業務總線,知足了絕大部分場景。

相關產品


  • 大數據計算服務 · MaxCompute

MaxCompute(原ODPS)是一項大數據計算服務,它能提供快速、徹底託管的PB級數據倉庫解決方案,使您能夠經濟並高效的分析處理海量數據。 更多關於阿里雲MaxCompute的介紹,參見MaxCompute產品詳情頁

  • 雲數據庫RDS MySQL版

MySQL 是全球最受歡迎的開源數據庫之一,做爲開源軟件組合 LAMP(Linux + Apache + MySQL + Perl/PHP/Python)中的重要一環,普遍應用於各種應用場景。 更多關於雲數據庫RDS MySQL版的介紹,參見雲數據庫RDS MySQL版產品詳情頁

  • Quick BI

Quick BI 專爲雲上用戶量身打造的新一代智能BI服務平臺。 更多關於Quick BI的介紹,參見Quick BI產品詳情頁

  • 實時計算

實時計算(Alibaba Cloud Realtime Compute,Powered by Ververica)是阿里雲提供的基於 Apache Flink 構建的企業級大數據計算平臺。在 PB 級別的數據集上能夠支持亞秒級別的處理延時,賦能用戶標準實時數據處理流程和行業解決方案;支持 Datastream API 做業開發,提供了批流統一的 Flink SQL,簡化 BI 場景下的開發;可與用戶已使用的大數據組件無縫對接,更多增值特性助力企業實時化轉型。 更多關於實時計算的介紹,參見實時計算產品詳情頁

  • DataWorks

DataWorks是一個提供了大數據OS能力、並以all in one box的方式提供專業高效、安全可靠的一站式大數據智能雲研發平臺。 同時能知足用戶對數據治理、質量管理需求,賦予用戶對外提供數據服務的能力。 更多關於阿里雲DataWorks的介紹,參見DataWorks產品詳情頁

【雲棲號在線課堂】天天都有產品技術專家分享! 在線課堂地址: https://yqh.aliyun.com/zhibo 當即加入社羣,與專家面對面,及時瞭解課程最新動態! 【雲棲號在線課堂 社羣】 https://c.tb.cn/F3.Z8gvnK

上雲就看雲棲號:更多雲資訊,上雲案例,最佳實踐,產品入門,訪問:https://yqh.aliyun.com/

本文爲阿里雲原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索