推薦系統如何處理數據？

時間 2019-11-06

標籤推薦系統如何處理數據简体版

原文原文鏈接

據統計，全球數據總量預計2020年達到44ZB，中國數據量將達到8060EB，佔全球數據總量的18%。現階段咱們所討論的人工智能，很大程度上都是在談「人工智能」這個大概念下機器學習領域中的深度學習技術。它的底層原理相對簡單，對數據有很大的依賴性，本質上是一種基於大數據的統計分析技術。算法

推薦系統做爲人工智能的落地場景之一，對數據的依賴性不言而喻。企業經過前期的數據收集，全面瞭解自身的產品和目標用戶；以後，經過一系列的數據挖掘技術，對目標用戶進行分類，刻畫用戶畫像；最後，再經過數據決策，制定產品運營方案，並不斷迭代、優化產品細節。能夠說，沒有前期的數據，以後的一系列操做無從談起。數據庫

那麼，推薦系統是如何處理數據的呢？微信

一個典型的推薦系統，處理數據一般會經歷如下四步：即數據收集、數據存儲、數據分析和數據過濾。網絡

數據收集

實現推薦系統的第一步即是收集數據。這些數據能夠是顯性數據，也能夠是隱性數據。顯性數據就是指用戶主動輸入的數據，例如對內容的評論、點贊、轉發、下載等，隱性數據是指用戶的瀏覽歷史、閱讀時長、觀看記錄、搜索日誌等。後臺會爲每個使用該產品/訪問該站點的用戶建立一個數據集。app

用戶的行爲數據很容易收集，經過站點上的用戶行爲日誌就能獲取。若是用戶已經在使用APP，獲取用戶的行爲數據就不須要用戶的額外操做。但這種方法有一個缺點，獲取的數據分析起來很麻煩。好比說，從用戶的大量行爲日誌中過濾出真正須要的日誌很是麻煩。運維

因爲每一個用戶對產品的喜愛不一，所以收集到的每位用戶的數據集也大相徑庭。隨着時間的推移，收集到的用戶數據也愈來愈多，經過一系列數據分析，推薦的結果也會愈來愈精準。機器學習

數據存儲

咱們爲推薦算法提供的數據越多，推薦的效果就會越精準。這也就意味着，任何推薦問題均可以轉變爲大數據分析問題來解決。工具

用於建立推薦結果的數據類型可幫助咱們肯定應使用的數據存儲類型。咱們能夠選擇使用NoSQL（Not Only SQL）數據庫、標準SQL數據庫，甚至是某種對象存儲。根據不一樣的存儲目的如獲取用戶輸入/行爲，以及操做的難易程度、存儲的數量級、與其餘環境的集成以及數據的可移植性等因素，選擇合適的數據存儲類型。post

在保存用戶評級或評論時，可擴展和可託管的數據庫可以最大限度地減小所需的任務量，將注意力聚焦在推薦結果上。 Cloud SQL能夠知足這兩種需求，還能夠直接從Spark上加載數據。學習