在推薦系統中,研究人員爲了能讓預測結果對用戶提供更多價值,會關注用戶滿意度。鑑於推薦系統除了讓用戶購買更多的類似產品外,還必須對用戶而言「有用」,研究人員還會關注用戶在使用系統時的交互體驗和消費體驗。 目前,研究人員正在經過評估不一樣的指標來解決這個問題,而不是簡單地經過預測準確度和機器學習技術。算法
推薦系統的性能應該由它爲用戶產生的價值來衡量。在推薦系統的評估問題上,目前有不少指標,好比說覆蓋率、新穎性、多樣性、驚喜度。這些評估方法名稱各不相同。微信
有些學者把推薦系統中的新穎性、相關性、驚喜度等稱其爲「概念(concept )」,另外一些學者則稱其爲「維度(dimensions)」,還有些人稱其爲「推薦系統評估的方法(measures of recommender system evaluation)」。網絡
在本文中,咱們將使用「概念」一詞,指代評估推薦系統時的不一樣方面。在對現有概念歸類後,咱們將其分爲了六大類:實用性、新穎性、多樣性、奇異性、覆蓋率、驚喜度和覆蓋率。但還有一些概念未說起,如:信任、風險、魯棒性、隱私、適應性和可擴展性。爲了方便讀者閱讀,咱們會把這幾大概念用不一樣的篇幅呈現。運維
表1總結了本文在全部評估指標中使用的符號。機器學習
推薦系統的實用性有不少別稱,例如相關性、有用性、推薦價值和用戶滿意度等。《推薦系統手冊》(Recommender Systems Handbook)認爲,實用性表明了用戶在推薦時所得到的價值。若是用戶喜歡推薦的項目,他/她收到的推薦就是有用的。實用性還被定義爲用戶消費偏好順序。若是用戶只消費他們最喜歡的東西,那麼推薦這些項目能幫助用戶更快找到心中所愛,從而達到推薦的實用性。post
能夠看出,大多數定義將實用性與用戶消費的願望與用戶滿意度掛鉤。在這樣的定義中,評估推薦系統的實用性應該集中在用戶對推薦系統生成的預測作何反應。咱們能夠經過評估用戶在消費物品後給出的評級,從而衡量推薦系統實用性。若是推薦結果爲用戶帶來了價值,這種方法彷佛是可取的,但這涉及到了在線評估。而說到離線評估,部分學者建議使用基於準確度的指標來評估。性能
在本文中,咱們使用符號𝑢𝑡𝑖𝑙(𝑅𝑢)util(Ru)來表示推薦系統的實用性,評估實用性的指標會在下文中一一介紹。學習
偏差度量被普遍用於預測準確性。平均絕對偏差(MAE,Mean Absolute Error)可以評估推薦系統預測的評級與用戶給出的評級之間的差別。測試
公式1顯示的是MAE指標。ui
此外,均方根偏差(RMSE,Root Mean Squared Error)是另外一種偏差度量標準,用來計算評級預測中較大偏差之間的差別如公式2所示。
標準差是用來衡量一組數自身的離散程度,而均方根偏差是用來衡量觀測值同真值之間的誤差,它們的研究對象和研究目的不一樣,可是計算過程相似,都是在預測列表上計算的。
此外,還有其餘偏差度量標準,例如平均RMSE (Average RMSE),平均MAE( Average MAE)和均方偏差(Mean Squared Error)。
推薦的精確度包括推薦列表中用戶消費(或評級)項目的數量,如公式3所述。精確度可以測量推薦列表中用戶喜歡並消費的項目的比率。
召回是根據用戶消費的項目總數中,出如今推薦列表中的消費項目數計算得出的。公式4則指召回計算。
ROC曲線的全稱是Receiver Operating Characteristic Curve,中文名字叫「受試者工做特徵曲線」,顧名思義,其主要的分析方法就是畫這條特徵曲線。
ROC曲線可以測量推薦列表中用戶喜歡的項目的比率。與偏差度量、精確度和召回指標不一樣,ROC曲線的計算強調推薦但用戶不喜歡的項目。在不一樣情景下對算法的評估可使用ROC曲線下的面積(AUC,Area under the ROC curve)。
在評估推薦列表時引用排序指標頗有用。推薦系統一般預測排名列表,然而用戶不太可能瀏覽全部的項目。所以,排序指標在測量實用性和排名信息時可能頗有趣。排序靠前的項目更重要。
公式5指R-Score度量,其中𝑟(𝑖,𝑗)r(i,j)是等級中項目𝑖i的等級,𝑑d是中值等級,αα表明半衰期衰減值。
除了R-Score,還有其餘排名指標,如 Kendall and Spearman rank correlation 和Normalized Distance-based Performance Measure。
在在線評估中,還會同用戶一塊兒評估推薦系統的實用性。研究人員一般會進行用戶試驗,來測試其推薦系統的實用性,或在行業應用時對其進行評估。
點擊率(CTR,Click-through-rate)是計算推薦商品數量中用戶已點擊/互動的推薦商品的比率。自網絡/移動廣告和在線營銷興起以來,點擊率就開始進入人們的視野。點擊率也是在推薦系統中的主要的度量標準,有助於研究用戶推薦項目的有效消費數量。
點擊率被用做推薦系統實用性評估指標的前提是,用戶若是點擊/交互/消費推薦項目,那麼該推薦對用戶而言有用。從商業角度來看,它顯示了推薦系統在預測方面的有效性。度量標準能夠在公式6中看到。
存留(Retention)也是用於在線評估推薦系統的指標。存留可以衡量推薦系統在保持用戶消費行爲或使用系統等方面的影響。存留一直是評估的焦點,已被應用於許多場景中。
值得一提的是,前面提到的推薦系統實用性評估指標一樣適用於在線評估。例如,基於準確度的指標(例如偏差度量、精確度、召回)也適用於在線評估。
相關閱讀:
如欲瞭解更多,歡迎搜索並關注先薦微信公衆號(ID:dsfsxj)。
本帳號爲第四範式智能推薦產品先薦的官方帳號。帳號立足於計算機領域,特別是人工智能相關的前沿研究,旨在把更多與人工智能相關的知識分享給公衆,從專業的角度促進公衆對人工智能的理解;同時也但願爲人工智能相關人員提供一個討論、交流、學習的開放平臺,從而早日讓每一個人都享受到人工智能創造的價值。