沒有用戶數據時如何搭建推薦系統?用這三種辦法!

本帳號爲第四範式智能推薦產品先薦的官方帳號。帳號立足於計算機領域,特別是人工智能相關的前沿研究,旨在把更多與人工智能相關的知識分享給公衆,從專業的角度促進公衆對人工智能的理解;同時也但願爲人工智能相關人員提供一個討論、交流、學習的開放平臺,從而早日讓每一個人都享受到人工智能創造的價值。

即便沒有用戶數據,咱們仍能搭建高效的推薦系統,向用戶展現更多優質內容,讓用戶參與其中。

太長不看版:

第一步即是搭建基於內容的推薦系統,這種推薦系統會給用戶推薦其餘相似的商品,但並不依賴其餘用戶的數據。這些特徵(即數學表達式,推薦算法需藉助內容條目不一樣方面的表達式才能得以運算)來自於內容條目自己,並不是用戶行爲。有了書面文本,咱們即可以使用語義技術提取文本特徵。算法

以上述推薦系統爲基準模型,咱們能夠引入其餘特徵,如提取自文本的元數據,儘量地優化該系統。 雖然沒有明確的用戶標識,但利用用戶帳號代理仍能實現個性化推薦。 假設用戶每次訪問該系統時都瀏覽了多件商品,那麼能夠根據該會話內的實時趨勢,搭建本地的基於會話的推薦系統。瀏覽器

正文版:

「在沒有用戶數據的狀況下該如何搭建推薦系統呢?」咱們曾屢次遇到過該問題,今天我試着回答一下。微信

本文將向你們呈現關於推薦系統如何工做的一系列基礎知識,(在重要部分)會使用一些行業術語。當涉及到技術問題時,會跟你們說明具體的技術環境。網絡

通常來講,在沒有用戶數據的狀況下,有三種可行的辦法來搭建推薦系統。我把它們按照複雜程度在下邊列了出來,此外,假設你們此刻能利用手邊一切可利用的數據。這三種方法,每一種後者比前者能更好地利用惟一標識和用戶信息等用戶數據,但實際上,你們手頭並無這些數據。數據結構

搭建基於內容的推薦系統

首先,咱們能夠以某些標籤或其餘內容元數據等爲特徵,搭建一個標準的基於內容的推薦系統。咱們能夠應用TF-IDF模型來評估算法,在該模型中,這些標籤表明了經預先計算好的詞典中的每個單詞(該詞典僅僅指某種數據結構,是語篇中全部的單詞集合。)app

具體來講,假設咱們充分利用全部的標籤以及其餘特徵來構建該詞典,那麼該詞典會幫助咱們構建所謂的「特徵向量」。以後,咱們以特徵向量爲基礎,對比不一樣的內容條目,搭建推薦系統。到了這一步,一個基於內容的推薦系統已初步完成,從個人研究經驗來看,該系統的推薦效果至關好。咱們如今作的全部工做都是在向用戶推薦相似於歷史商品的商品。「相似」一詞這裏指,推薦的商品與歷史商品相比,有相似的標籤和特徵。運維

若是咱們想搭建精度更高的推薦系統,要作的第一件事即是迭代上述初級推薦系統,並在此基礎上不斷優化。接下來我將介紹其餘方法。post

優化基於內容的推薦系統

上述步驟利用了包含現有標籤和其餘特徵的單一詞典。提升推薦精度的下一步是構建兩個及兩個以上的詞典——對應元數據的不一樣類別,咱們能夠基於多個詞典,在推薦系統中採用TF-IDF統計方法,計算每一內容條目得分的加權組合。咱們能夠根據主觀評估的結果優化參數(如每一項得分的權重)。這取決於哪一項參數權重能帶來最好的推薦效果。學習

若是某一類元數據不能用TF-IDF進行加權統計,如這組數據不相關,那我推薦你們把這組數據細分紅不一樣的種類。作了這樣的細分處理後,咱們會得到另外一組標籤(細分後的每一類數據都有各自對應的標籤)。假設這個過程當中未大量出現其餘特徵,那並不會加大整個工做的難度。優化

接下來能夠在系統中引入過濾技術,如加某個特定標籤,進一步優化推薦系統。它不是核心算法的一部分,但若是咱們想在推薦系統中嵌入某種算法,從而實現用戶自定義推薦準則的操做,那麼過濾技術即是該算法的附加支撐結構。

搭建採用用戶代理的推薦系統

提升系統推薦精度的下一步是觀察能做爲用戶代理的那些數據特徵。雖然咱們沒有用戶帳號,但可能有IP地址、瀏覽器信息、用戶會話等其餘信息。

至此,咱們能夠構建抽象的用戶。這種用戶帳號沒法驗證,但卻有了指紋技術的雛形。一旦咱們能爲「抽象」的用戶命名,那麼便能爲該用戶生成個性化推薦,具體來講,就是利用多種協同過濾技術。在我看來這也不復雜——咱們能找到不少開源項目(如高階Python包)。關鍵是咱們能夠藉助已有的代理信息來構建用戶帳號。

此外,咱們還須要用戶的點擊交互數據。咱們須要知道哪些商品已經被用戶點擊過,不然便沒有辦法順着用戶偏好作進一步優化。一旦有了用戶的點擊交互數據和抽象的用戶帳號,便能搭建由IP地址和瀏覽器信息組合而成的個性化推薦系統。這不是真正的個性化推薦,但離真正的個性化也不遠了。

搭建基於會話的推薦系統

最後的方法概述起來就是搭建基於會話的推薦系統。這與前邊提到的方法相似,但此次咱們關注的是某個特定會話內的數據。即便咱們沒法獲取用戶信息,也有可能拿到用戶會話數據。有了用戶會話帳號,便能和高度本地化的「用戶帳號」對等起來。

基於會話的推薦系統衆多,其中一些基於循環神經網絡(RNN)搭建的推薦系統精度極高,如Hidasi 和Karatzoglou二人所作的研究。這些系統的推薦效果都使人至關滿意。

基於會話的推薦系統假定用戶準備在該系統上停留一段時間。 若是用戶確實這樣作了,而且點擊次數足夠多的話,那麼系統的推薦效果會更好,推薦的內容對用戶更有吸引力。

原文標題:What Are the Three Ways to Build a Recommender System When You Don’t Have AudienceData?

以上內容源自Quora, 由第四範式先薦編譯發佈。

相關文章
相關標籤/搜索