根據推薦物品的元數據發現物品的相關性,再基於用戶過去的喜愛記錄,爲用戶推薦類似的物品。算法
1、特徵提取:抽取出來的對結果預測有用的信息機器學習
對物品的特徵提取-打標籤(tag)學習
對文本信息的特徵提取-關鍵詞編碼
2、特徵工程:使用專業背景知識和技巧處理數據,使得特徵能在機器學習算法上發揮更好的做用的過程spa
特徵工程步驟:3d
一、特徵清洗blog
二、特徵處理:特徵按照數據類型分類,有不一樣的特徵處理方法文檔
a、數值型:class
歸一化:變量
離散化:
離散化的兩種方式:等步長【簡單】、等頻【更精準,但每次須要對數據分佈進行從新計算】
b、類別型:數據自己沒有大小關係,要作到公平,又可以分開他們
One-Hot編碼/啞變量:將類別型數據平行的展開【特性空間會膨脹】。
c、時間型:既能夠作離散值又能夠看做連續值
d、統計型:加減平均、分位線、次序性,比例類
三、特徵選擇
3、基於UGC的推薦
一、用戶生成標籤(UGC):
用戶用標籤來描述對物品的見解,因此用戶生成標籤(UGC)是聯繫用戶和物品的紐帶,也是反應用戶興趣的重要數據源
二、三元組(用戶u,物品i,標籤b) :用戶u給物品i打上了標籤b
三、用戶u對物品i的興趣公式爲:
四、UGC問題:
傾向於給熱門標籤、熱門物品比較大的權重,推薦的個性化、新穎度就會下降
4、詞頻-逆文檔頻率(Term Frequency-Inverse Doucment Frequency TF-IDF)
TF-IDF:信息檢索與文本挖掘的經常使用加權技術。
用以評估一個字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。
字詞的重要性隨着它在文件中出現的次數成正比增長,但同時會隨着它在預料庫中出現的頻率成反比降低。
TF-IDF的主要思想是:
若是某個單詞在一篇文章中出現的頻率TF高,而且在其餘文章中不多出現,則認爲此詞或者短語具備很好的類別區分能力,適合用來分類