個性化推薦從入門到精通

今天的分享將爲你們解答如下幾個問題:你的公司是否適合採用個性化推薦?若是須要個性化推薦,該如何作好?產品運營在參與到一個推薦系統的構建當中,有哪些常見的坑?有哪些能夠避開這些坑的一些簡單方法?以及如何修煉成一個優秀的推薦產品經理?算法

1、「四個關鍵」爲你揭開推薦系統的神祕面紗

我的認爲,推薦系統是根據用戶以及不一樣的場景差別,對信息進行合理的排序、過濾,解決信息過載問題的一套機制。這個定義中包含四個關鍵點,以下:安全

1.「根據用戶以及不一樣的場景差別」

對於不少剛開始作推薦的人可能會忽略這一點,大部分人在思考推薦時想的更多的多是基於用戶來作,但其實我從衆多實踐中發現,不少時候推薦產生價值不只僅只是說以用戶進行區分,相關場景的差別會對於最後推薦效果產生巨大的影響。cookie

2.「推薦的本質是對信息進行合理的排序、過濾」

不少人認爲推薦是一個魔盒,很是神奇,其實究其本質是企業有成千上萬甚至上億的 item,無論這些 item 是文章、視頻,仍是電商裏面的商品,而後如今有某我的在一個具體的場景裏面,企業須要把這些 item 給他看,那應該把哪一個放在第一個?這就是推薦系統背後的運做原理。架構

3. 「推薦系統要解決信息過載的問題」

舉個例子,若是你的企業只作爆款商品,整個公司只賣兩個商品,這樣用戶一看就明白了,顯然也不須要推薦,因此作推薦的一個前提條件是你公司自己提供的業務裏面的信息太多了,對於一個正常的天然人來講,他處理不了那麼多信息的時候,企業才須要去幫助用戶解決信息過載的問題,從而爲用戶設計這樣一套機制。機器學習

4.「一套機制」

這點很好理解,推薦系統是由不一樣的算法、規則等構成的一套機制。這四點是我從產品視角爲你解讀了什麼是推薦系統,以及他的一些簡單做用。學習

2、推薦系統、廣告系統、搜索系統三者有何不一樣?

事實上,解決我在前面提到的一系列問題,推薦系統並非惟一的方法。優化

好比,前面所提到的排序、過濾,作技術的同窗應該很容易聯想到,搜索和廣告系統也涉及排序、過濾,且搜索也必定程度上解決了信息過載。那麼,這三個系統,它到底有什麼區別呢?網站

我從 5 個方面對其進行了對比,下面將一一講述:搜索引擎

1. 用戶獲取信息的方式。設計

廣告與推薦系統,用戶都是被動的,但搜索不同,用戶是主動搜索的,他須要輸入一些關鍵詞,會加入一些本身的意見和重點。

2. 點擊率要求。

這三個系統對點擊率都有要求,僅在要求上有些區別,這就不詳述了。

3. 驚喜度要求。

對於廣告和搜索系統來講,不須要太多的驚喜度。好比,若是我搜一個關鍵詞,搜索到我想要的資料時,並不會以爲很驚喜,甚至認爲是理所固然,可是在推薦系統裏,用戶每每對驚喜度是有要求的。

具體來講,用戶對於一個推薦系統的指望是但願產品可以給他們一些驚喜,如用戶 A 雖然不知道產品用了什麼數據、什麼方法,但若是忽然推薦了一首可能他已經快遺忘的本身卻很喜歡的歌時,他就會因感到產品「好懂我」而驚喜。

4. 個性化要求。

在廣告和搜索系統,個性化的需求是無關緊要的,無論有沒有系統也能正常運做。可是,對於推薦系統來講,個性化要求很是高,甚至越高越好。由於個性化推薦針對的是差別化的單個場景,必定會有個性化的要求。

5. 用戶反饋。

廣告和搜索系統存在比較隱性的反饋,即對於搜索結果好很差?通常不多有搜索引擎廠商會直接問用戶,你喜不喜歡搜索結果,更可能是廠商去斷定廣告效果和搜索效果,通常是經過 CTR,或經過整個產品的某些長期留存表現來斷定。可是,對於推薦系統來講,不少推薦產品會直接地問用戶的喜愛,存在很明顯的顯性主觀表達。

所以,一樣是解決相似的一系列問題。 可是這三個不一樣的系統存在極大的差別(以下圖),這些區別直接決定了企業去判斷某個業務適不適合使用個性化推薦,以及該如何作好個性化推薦。

神策數據 VP 張濤:個性化推薦從入門到精通(附推薦產品經理修煉祕籍)

3、什麼樣的產品或業務適合採用個性化推薦?

我的認爲,具備媒體性的產品(Media Product)適合使用個性化推薦,這裏指的不是隻有與媒體相關的才能使用推薦,公司業務爲電商的就不行,其實它只是一個概念,包含四個點,但不必定要同時知足,下面我將一一解說。

1. 口味很重要(Taste)

產品中的 Taste 自己很重要。舉個例子,網上曾有一個很火的梗,在淘寶搜索連衣裙,排在第二位的連衣裙價格,表明了在整個淘寶體系裏斷定你我的的客單價範圍。咱們當時試了一下,發現一個特別有趣的現象,就是通常女生搜索出來的價格都會很低,大概一兩百元,而我和一些男同事搜索出來會高不少,如我搜索的基本上是一千八左右的連衣裙,仔細想想也有緣由,像女生每天逛淘寶,大大小小什麼商品都買,但我上淘寶基本上都是要買相機、電腦,這些價格都在幾千或上萬元。很容易發現,咱們全部人對於買的東西的方向和口味是有差別的。

事實上除了存在差別還存在要求,不少人不但願被一個平臺斷定其口味是某個方向。好比一個具有推薦系統的網站總給你推薦一些下三濫、低俗的東西,他會想「天哪!我是這樣一我的嗎?」所以,你們對於一個平臺的口味和本身的口味都是有要求的。

2. 單位成本不重要(Cost)

「單位成本不重要」咱們能夠經過這個例子來理解,好比之前咱們天天看報紙,由於報紙的單價較便宜,對應到如今的產品,好比我聽一首歌、看一篇文章、買一個常規的商品,你的消費行爲的 cost 消耗都不高,且不那麼重要。

3. 有瀑布效應(Information Cascade)

瀑布效應指的是,一旦在社區或平臺裏產生了一個趨勢,那麼整個平臺的其餘人都會跟隨這個趨勢,好比,微博上轉發超過三四千的動態,可能會慢慢地被轉發的更多,整個社區會造成這樣的一些趨勢和傾向,瀑布效應在平臺和社區較容易造成。

4. 多樣性(Diversity)

這一點指的是你的平臺的內容自己是具備多樣性的,這是推薦的基礎。若是整個平臺的內容在各類維度、屬性上都一致,那麼很難作推薦。

基本上,只要知足以上 1-2 個點,咱們就能夠說它是一個偏媒體型的產品。這方面一個很經典的例子,咱們能夠看下圖,在圖中的王守崑是原來負責豆瓣最先的推薦系統的架構師,這是他在很早以前分享中的一頁 PPT,我以爲這是講一個產品適不適合上推薦最直觀的一個例子。

神策數據 VP 張濤:個性化推薦從入門到精通(附推薦產品經理修煉祕籍)

當時他們在作豆瓣推薦的時候,首先思考到底應該優先在什麼頻道上推薦,爲此設置了一個判斷的標準,開始列一些指標,以下:

豆瓣會根據各個頻道的用戶數、條目數(豆瓣收錄的圖書、電影、音樂多少)計算稀疏性,好比圖書的條目數是 300 萬,同時記錄圖書用戶羣體人均會在豆瓣收藏幾本書(點看過的視爲收藏),豆瓣用人均的看過的次數除以總的條目數算出的值叫作稀疏性。

若是一個產品稀疏性過低,那麼繼續使用現行的推薦系統的相關算法就會出現問題,由於整個待推薦的內容面臨很大的羣體,若是每個人喜歡的東西太少時,他就會散落在整個大羣體的各個方面,你很難找到人和人之間具體的關係,由於每一個人在整個系統裏面的表達興趣太少了。所以,稀疏性低的產品作推薦,要麼是工程難度比較高,那麼效果可能不太好,通常說稀疏性高一點的產品更容易找到人與人之間契合的東西,固然稀疏性也不能太高,若是稀疏性達到百分之八九十,那全部的用戶可能就過於類似,因此豆瓣比較強調稀疏性。

關於多樣性,有一個有趣的點須要注意。好比圖書的多樣性高,你們可能理解圖書僅根據一個偵探小說就能分出幾十個類型;電影的多樣性低,好像和常規的理解不同,事實上由於電影如今是高度工業化和商業化的產品,他們的類型彙集度是至關高的。因此這給了你們一個啓示,在判斷自身產品時,不要徹底憑直覺,而要真的拿本身公司的實際數聽說話。

時效性很好理解,我就不解釋了。反饋是指在某個品類中,企業作出一個推薦行爲,用戶何時能給企業一個反饋,也就是用戶表達本身喜愛的反饋時間週期是快仍是慢。好比圖書就會很慢,讀完可能須要十天半個月,拖延症的人可能還要讀半年左右;文章就會很快,只要點個人文章就能夠定義爲偏好,把這篇文章滾動到底就是喜歡;音樂也是,聽完就是喜歡,很快跳過就是不喜歡。

最後,豆瓣會綜合前面全部的這些維度屬性來判斷推薦效果。在圖中他們認爲推薦效果最好的是單曲,緣由是單曲的稀疏性特別高,雖然多樣性相對來講低級別,可是由於稀疏性高,加上反饋週期特別快,綜合起來效果最好。事實上,這也是爲何你們在互聯網的花花世界中,還能記得豆瓣 FM 這個產品。不過,豆瓣在其餘方面的推薦效果也不錯,好比圖書。

以上,就是豆瓣當時內部的一個評估過程,揭示了企業想要作一個推薦產品的時,到底該如何去衡量這個業務適不適合作,效果將怎樣,須要定一個衡量的標準。

4、以商業爲目的,推薦要作成什麼樣?

推薦的商業目的通常分爲如下幾種:

1. 用計算機經驗取代運營經驗(節省成本、提升效率)

這一點很是重要,不少人提到推薦系統會認爲是由公司的技術部門負責,像變魔法同樣,就把某個事情從人工運營變成了機器運營,而後運營的同窗就好像沒活幹了,但事實不是如此,其實本質上來講它是取代運營經驗,可是有個前提條件是大家公司原本有運營經驗,我不多見到公司使用推薦系統是徹底拋開運營團隊,單靠技術團隊本身的力量,把推薦系統運做得很好。

事實上,咱們能夠這樣理解這一點:運營積累了一些經驗,可是隻能經過運營人工的進行一次次干預,這樣每每只能對整個區域進行干預,沒有辦法把經驗落地到每個具體的用戶身上,干預每個用戶的體驗仍是很難。所以,推薦系統就能夠幫助解決提高每一個用戶的體驗問題。

2. 充分利用流量(提升變現能力)

事實上,不少企業的產品設計以及各類運營方案,可能只能解決衆多流量的其中 60% 的需求,另外 40% 的需求被忽略了,或者是不得不忽略,由於企業沒有辦法給每個用戶或者每一羣用戶單獨配一個運營。此時,推薦系統就能夠起到相似分流量的精細化運營的做用。

3. 促進信息流動(留住小衆用戶)

這個價值點可能不少企業沒有注意到,由於大多數想使用個性化推薦的公司,都在考慮公司如何賺錢?或用戶如何能獲得更好的體驗?可是,不少產品的推薦系統還有一個很重要的做用是促進信息流動,從而留住小衆用戶。在不少形態的產品中,無論是社區型的產品,仍是電商型的產品,它都會存在一些商品,若是產品的機制運營的不錯,這些商品會在短期以內成爲整個社區的話題和爆款。

可是可能社區自己的積澱或產品的話題程度,不可能讓它持續地成爲話題,可是必定要製造話題,由於其一能夠彰顯整個社區多樣性,其二小衆的羣體也以爲本身能在大平臺獲得展示,會更容易留下來,但若是整個社區缺少這種能力,展現在推薦位置的永遠是熱門的大衆內容,那麼長尾的小衆社區、小衆用戶、小衆商品就會涌入其餘平臺,企業便很難養起來那一部分的風。

回到當下來看,像抖音這樣的產品,爲何可以讓那麼多人蔘與進去?核心在於彙集了多樣化的用戶,好比常常在抖音上看到一些播放量、點贊量都是幾十萬的用戶,你點進去他的主頁來看歷史的視頻播放,你會發現這個用戶可能只有那一個視頻幾十萬,其餘的視頻只有幾百、幾千的播放量。但這就是推薦系統的魅力,用戶不須要一直是一個大 V,只要偶爾一個內容可以成爲爆款,那麼平臺就可以把這類用戶篩選出來,讓他吸引更多的人蔘與進來,而避免說被少數的大 V、頭部流量把整個平臺給遏制住,這是一個比較有意思的商業目的。

5、產品、運營必知的推薦系統算法

這裏是針對常見的一些作推薦的基礎思想和算法進行簡單的掃盲(以後神策數據公衆號會有一篇文章「推薦系統的實踐與思考」會對最新的一些推薦系統的架構構建進行專門的介紹),如下三種是比較常見的:

神策數據 VP 張濤:個性化推薦從入門到精通(附推薦產品經理修煉祕籍)

協調過濾(CF)、隱語義模型(LFM)、優點排行(Edgerank),咱們最多見到的是CF、其中 Edgerank 主要用於相似 Facebook 作社交的企業。

1. 協調過濾(CF)

事實上,大部分的推薦系統的本質是「物以類聚,人以羣分」,思路大概可分爲兩個方面:其一,研究物品,即研究被推薦系統推薦的 item 進行推薦,被稱爲基於物品的推薦(Item-based);其二,研究人,即根據人的喜愛進行推薦,被稱爲基於用戶的推薦(User-based)。

基於物品的協同過濾是什麼意思呢?舉個例子,某個電商企業的商品 i 和 j 被同一類人喜歡,所以能夠將其歸爲一類,當用戶 u 喜歡 i 可是沒有看過 j,就能夠把 j 推薦給 u。

基於用戶的協同過濾又是什麼意思呢?前面提到的物品的協同過濾是先把物品歸爲一類,而後再推薦相同類的,而基於用戶的協調過濾是咱們先分析用戶。舉個例子,咱們把用戶 A 和 B 歸爲一類,而後,就能夠把 B 喜歡的商品,A 還沒看過的 i 也推薦給 A。

2. 隱語義模型(LFM)

隱語義模型相對協同過濾會複雜一些,可是本質上也較類似,這根據用戶的行爲和物品的特徵,用機器學習的方法先把物品進行分類,而後再計算用戶 A 對每個類別的興趣程度。舉個例子,某個企業經過機器學習把物品分紅了十個類,而後該企業計算用戶 A 對每一個類別的興趣程度,能夠劃分爲 一、0.八、0.七、0.五、0.3 等。以後,企業繼續計算一個物品 i 對於每一個類別的權重,也就是物品 i 到底該被劃分到哪一個類別,最後,企業根據這兩個信息和權重計算出用戶對物品 i 的喜好程度。相比協同過濾,LFM 分的更精細,事實上,現實中無論是人的屬性仍是物品的屬性都千差萬別,很難經過單純的把物品或人分爲一類就能知足推薦的需求。

3. 優點排行(Edgerank)

Edgerank 是 Facebook 徹底基於自身信息流分發構建的一個算法。這能幫助你們理解有時候推薦算法不是簡單採用市面上恆定的算法,而要根據公司實際的需求調整。Edgerank 會算三個指標:親密度(Affinity Score)、邊的權重(Edge Weight)、新鮮程度(Time Decay)。

親密度(Affinity Score)。好比用戶 A 發了一些文字信息、視頻、圖片等,用戶 B 從一些第三方應用分享的這些文字、視頻、圖片來到用戶 A 的信息流,Facebook 就會首先算用戶 B 與用戶 A 的親密程度(同窗?情侶?曾經互動過?),經過系統來計算出 AS 的親密度分數,當斷定爲存在親密度,就會再計算邊的權重。

邊的權重(Edge Weight)。這指的是用戶 B 經過什麼樣子的邊鏈接到你,是圖片?文字?仍是經過分享本身喜歡的文章,像這種不一樣的鏈接類型,叫作邊。 邊的權重的不一樣會幫助更好的推薦。舉個例子,若是發現 Facebook 的用戶更喜歡看照片,照片的邊的權重就會更高;若是用戶總髮一些沒有養分的雞湯文,這些文章邊的權重就會降低。

新鮮程度(Time Decay)指的是內容自己的發佈時間的遲早,越近發佈的權重會越高。

Facebook 會綜合這三個指標給用戶作推薦,可是對大多數企業來講沒法直接套用,由於這是根據 Facebook 自身信息流的分發需求提煉出的影響因子。

之因此爲你們介紹這三種模型,是想讓你們簡單瞭解如今作推薦的常規手段,但事實上如今的工程實踐遠比上面的這些基礎模型複雜,咱們再來看一下推薦系統的架構圖,這不是純技術角度的架構圖,比較偏產品視角。事實上,作推薦系統每每是一個過程,經過多種算法獲得一個初步結果,而後再對初步結果進行過濾、排序,再生成一些推薦緣由,最後展現推薦結果。在整個過程裏面,產品運營參與的環節也比較多,這就是個人一個理解。

神策數據 VP 張濤:個性化推薦從入門到精通(附推薦產品經理修煉祕籍)

6、個性化推薦產品經理的修煉祕籍

作推薦系統每每不是一蹴而就的,中間會有不少失敗的因素。我認爲常見的失敗緣由主要分爲三個方向:數據質量、太過魯莽、不理解用戶。

神策數據 VP 張濤:個性化推薦從入門到精通(附推薦產品經理修煉祕籍)

不少公司讓我幫忙判斷是否適合作推薦時,每每發現公司在數據層面上沒有什麼積累。好比有些企業徹底沒有統一的地方存儲用戶信息,可能分散在不一樣系統、不一樣部門。這致使作推薦建模時,徹底不知道數據在哪找。

還有些企業用戶的行爲信息保存太少,基本上只有一些關鍵交易信息保留,但整個交易的前置環節,好比用戶在首頁搜索哪些關鍵詞?在一個頁面詳情頁上反覆瀏覽了幾回?是否添加購物車?是否使用優惠券?相似這些信息所有沒有保存。雖然推薦系統中的某些關鍵行爲很是重要,可是大部分的推薦系統中的關鍵行爲極少。

對於推薦系統來講,數據越多越好。不少公司,你會發現其用戶行爲數據收集的至關少。除此以外,當我幫他們把數據找全了想合到一塊兒來使用,卻發現合不到一塊兒。好比,公司的瀏覽數據沒有記錄 UID,直接只記錄了網站上的 cookie,所以只能用 cookie 來斷定用戶訂單,但訂單後臺直接記錄了用戶的 UID 或訂單號,多個數據源之間沒有統一的 ID 識別機制,企業沒法把用戶的行爲數據、業務數據連通。 這些主要是數據質量致使推薦系統失敗的緣由,缺乏一個好的數據基礎打地基。

過於魯莽和不理解用戶也是企業會常犯的錯誤,這些會在下面的祕籍中體現。

祕籍 1 :明確推薦場景

當你們作推薦系統時,必定要想明白推薦的場景是什麼?頭條因個性化推薦而爆火,不少人一想到推薦可能就是信息流,這就是過於魯莽的斷定,但其實推薦場景有不少,好比信息流、猜你喜歡、關聯推薦以及針對不一樣的用戶推薦不一樣的產品界面等。

舉個例子,如今一樣的一個產品,可能 Web 端、移動端都有入口,甚至還存在車載設備的入口等。那麼,一樣的產品功能,在這三個場景下給用戶推薦確定應該有所不一樣,並且每每是當產品、運營認知到了這種區別以後,反饋到算法部門,讓他們進行調整最終獲得某些效果進行對比,不難發現對於這點,認知的經驗效果遠比調節算法的細節來得更加有用。

另外一個典型的例子是用戶在售前、售中、售後的不一樣場景,針對其整個做用的方向不同。

好比,企業作商品推薦,在售前應該推薦什麼商品,能把用戶的興趣激發出來?售中有什麼策略能促進用戶儘快下單?售後又該怎麼作?若是用戶剛剛買了一個電視機,又被推薦買另一個電視機,就是一個典型的糟糕的推薦場景。事實上,用戶處在不一樣週期,推薦算法要解決的問題是不同的,推薦邏輯也隨之不一樣,因此推薦算法要根據用戶在你產品的生命週期進行不一樣的設計。

祕籍 2:明確目標

這一點指的是推薦系統能解決的問題,我的認爲,能夠分爲從衆、興趣、發現三個方向。

解決從衆的需求

不少人認爲「從衆」是貶義詞,事實上,咱們大部分人從生理和心理上都有從衆的需求,由於從衆是人追求安全感的一個體現,因此推薦系統首先解決從衆需求。好比,讓產品的推薦能告訴用戶在這個社區裏面如今最流行什麼,來幫助其跟隨潮流,從而得到歸屬感和安全感,這個需求一般是穩定的,並且很是重要。

解決興趣的需求

簡單來講,這個平臺上有不少內容,但時間、精力有限,用戶只想看與本身興趣相關的。

解決發現的需求

若是產品上的內容我看的差很少了,有沒有點新鮮的內容,這就是發現的需求。好比,我是一個愛好作模型的人,但該網站上關於模型的內容已經看的差很少了,網站給我推薦了一些我可能感興趣,但不是模型相關的內容來解決我發現的需求。

以上就是推薦系統解決的三方面需求目標,不一樣的目標與之相關的要求也不同。

對於從衆的需求來講,企業但願用戶的滿意度很是高。當你推薦的流行內容若是被用戶發現不是最近流行的,用戶的滿意度就會很低。然而,對於發現的需求來講,企業對滿意度要求就沒有那麼高,用戶本身的預期也不會那麼高,因此有時候對於發現的需求,企業爲用戶推薦錯一個或者推薦一個沒那麼滿意的東西,用戶極可能會認爲機器猜錯了很正常,不會介意。

就推薦準確率而言,從衆通常準確率較低,由於用戶不會對全部流行的內容都會仔細查看,可是,興趣的準確率就要求很高。對於覆蓋率,從衆由於是迎合整個社區的潮流需求,覆蓋率確定是低的。而興趣由於針對不一樣的人來覆蓋不一樣的興趣,覆蓋的會愈來愈多。發現每每能使產品中不少可能冷門的庫存內容從新獲得展現。以此類推,多樣性、新穎性、驚喜度也是相似。

神策數據 VP 張濤:個性化推薦從入門到精通(附推薦產品經理修煉祕籍)

所以,若是你的企業使用推薦系統,從這個三個方向,最後的考覈指標徹底不同。舉個例子,咱們常常聽到產品如今的目標是提升用戶收聽時長,但逐漸會發現產品處於不一樣階段,推薦的目標是徹底不同的,就我的經驗總結,一個正常產品的發展軌跡每每以下圖。

神策數據 VP 張濤:個性化推薦從入門到精通(附推薦產品經理修煉祕籍)

推薦系統通常最開始都是爲了解決從衆的需求,也就是如何把社區中流行、熱門的內容儘量地經過推薦系統篩選出來,讓更多的人來看。而後慢慢地用戶增長,產品內容愈來愈豐富,便須要作更精細化的運營,這個階段更注重推薦系統解決單個羣體或單個用戶的興趣需求。最後,產品在後期逐漸穩定時便要着手於發現。

舉個例子,機核網是神策數據的一個客戶,一個專一遊戲文化的媒體網站,我是其忠實用戶,第一次接觸時,我被網站上的深度文章所吸引,我花了大概半年多的時間,把歷史文章、電臺、視頻內容都看了一遍,這個時候做爲一個老用戶,已經把我興趣範圍以內的東西探索的差很少了,產品提供的價值受到了限制,這個時候企業便須要使用推薦系統去解決和發現一些需求,如何讓這一批老用戶可以在產品中找到一些新東西,激發新的需求變得很是重要。因此,每每作推薦系統會分爲幾個階段。

祕籍 3:大膽拍腦殼

在工做中,不少時候不可避免的須要拍腦殼。下圖是 Facebook 的首席產品官 Chris Cox 說的一句話。

神策數據 VP 張濤:個性化推薦從入門到精通(附推薦產品經理修煉祕籍)

大概意思是,在最開始,News feedranking 是 Facebook 最核心的時間流,他們像扳開關同樣,有時認爲圖片的權重不夠高,就把圖片權重調高一點,而後把故事權重調低一點。好比可能一個圖片值五分,若是一個用戶加入某個小組只值一分。事實上,給這些行爲打 5 分與 1 分沒有特別科學的說法,可是,剛開始必定要大膽的拍腦殼,而不是你們都停在一個點,什麼都不作。

有時候作推薦系統,關於某些關鍵行爲的權重該如何設置的問題,若是產品運營徹底不參與,把這個問題推給技術,技術有時候對業務的理解沒有那麼深,他可能傾向於用一個很複雜的算法來算權重。

固然,最好的方式更多仍是須要產品給技術更多的輸入。若是產品告訴技術,在產品裏面用戶很喜歡圖片,能夠先把圖片權重調高一點,把故事權重調低一點,技術按照這個規則先嚐試一下,事實上,在推薦系統整個開發迭代過程當中常常會反覆的調高調低權重,而且在這個實踐應用過程當中也會發現其中的優劣勢。

再舉個例子,以前我在 A 站早期帶 A 站的時候,由於當時還較小,養不起一個算法團隊,因此咱們買了市面上的一些黑盒推薦服務,企業只須要提供數據,服務商就能夠把推薦結果給你,最終發現效果特別差,並且你想作相關的調整把某個受歡迎的頻道權重調高一點,但由於是純黑盒推薦,企業自身根本沒法直接調整,或企業給服務商提需求,可能須要等幾個月才能拿到結果,那麼推薦的最終效果就很難保證。因此即便市面上有不少黑盒推薦,接入成本也比較低,但企業會發現推薦系統不是一個接入一次就完成的事情,推薦系統須要在這個過程當中不斷地去調整,不斷地根據業務去反饋。

所以,企業在拍腦殼的時候,須要產品和運營定義到底哪些「用戶行爲」更重要、或者意味着什麼,這是靠機器沒法作的。好比,用戶看一篇文章滾動到底部,機器並不會認爲這有什麼價值,但咱們會認爲該用戶對這篇文章真的感興趣。也就是一個無用的信息,加入了人工的判斷認知以後,就可能變成在整個推薦系統裏很關鍵的信號。

這個系統裏還有不少這種相似的行爲須要人爲的給這些行爲打上一個標記,斷定爲喜歡或不喜歡的信號,這種信號極其重要,不是你們想象的推薦是根據一些很明確的行爲定義的,不少用戶的喜歡和不喜歡判斷都不是用戶主動表達出來的,都是依靠產品、運營、技術一塊兒研究業務、用戶流程推斷出來的。

那麼行爲如何彰顯喜歡程度或者討厭程度呢?舉個例子,對於電商產品,一般會認爲一個用戶對於商品的興趣表達公式是:購買遠大於收藏,收藏大於瀏覽。在作推薦系統時,這些權重就須要考慮進去。

祕籍 4:反覆檢閱推薦結果

企業不是隻要推薦系統上線就能夠了,還須要反覆檢閱推薦結果。通常檢閱分兩種:離線和在線。

第一個是在線的檢閱。在線檢閱的核心是企業要理解用戶的行爲模式,產品要像用戶同樣去用自身的產品以及推薦模塊,設身處地感覺一下如今推薦的內容是不是本身想要的,若是推薦的內容不是想看的,就須要和運營、技術溝通,爲何此次推薦的是一個我不想看的內容,就是你要把推薦放到一個實際的場景裏,真正地本身去體會去理解用戶的行爲。

第二個是離線的檢閱。過去作產品時,咱們有時候會仔細分析給用戶推薦的歷史結果中是否存在一些很明顯的 Bad case,這也是企業改善推薦質量很常見的一種方式。

豆瓣電臺過去作中文英文曲庫分割就是一個典型例子,當時豆瓣的收聽率一直沒法上升,最後豆瓣員工進入用戶狀態,換位思考發現有些人喜歡聽中文歌,徹底不喜歡英文歌,而還有些人喜歡聽英文歌,卻反感中文歌。從推薦角度思考,只須要作一個簡單的事,把中文跟英文的曲風直接區隔開,區隔開後豆瓣的推薦準確率瞬間提高。

另一個例子是,有一次咱們作商品推薦遇到了瓶頸,咱們採起了一個方法,在每次推薦批次的商品中加入幾個 10 元包郵或 20 元包郵的商品,最後整個點擊率、轉化率都提高了,這並非科學的方法,但當企業作一些在線的體驗優化或是離線的Bad case校驗時,你會發現一些粗暴的解決方法,可是這些對於總體的效果提高頗有效。

祕籍 5:多學習一些算法知識

非技術出身的產品、運營,若是真的想把推薦業務作好,建議學一些算法知識,至少簡單知道每個算法的基本優劣勢,這樣才能爲你的優化方向提供目標和思路,溝通更順暢,更容易碰撞出火花。

好比,當作協同過濾的推薦系統時,當企業有 6000 萬的歷史用戶,平均每一個人喜歡十個商品,可是隻能推薦 1000 萬個商品。對於沒有作過推薦系統的大部分人,對其背後的的工程難度是沒法想象的,可是你須要配合工程師去理解,若是你不理解工程難度在哪,就提不出比較好的建議。

好比產品、運營須要知道,過熱、過冷、太 low 是一些很常見的Bad case。過熱指的是推薦的永遠是很重要的內容;過冷就是總推薦一些最冷門的內容,致使用戶點擊率低;太 low,也是很常見的,內容質量低,用戶不喜歡。這也是我認爲有時候產品運營參與推動業務能夠幫助技術解決的一個特別好的點。在我作產品時,一旦發現有Bad case,就直接幹掉,在這過程當中不只優化了整個推薦的質量,還經過不斷地幹掉這個動做自己發現一些問題和規律。

再分享一個經典問題——如何作冷啓動?如今已經集中在幾個大概的方向:1.主動收集,讓用戶去選一些感興趣的一些方向,如豆瓣註冊後讓你選擇感興趣的類目;2.被動收集,如在淘寶網頁收集用戶的一些點擊、瀏覽等行爲數據。

7、推薦系統的將來走向

下面簡單聊聊我對推薦系統的將來走向的想法。事實上,如今的一些企業的推薦系統,大部分算法都是混合發揮做用的,也就是複合算法。企業還能夠在複合算法基礎上加入競爭機制,如在一樣一個推薦場景,多個窗口同時運做,這些窗口之間存在相互競爭,最後斷定在同一個場景下,到底哪一個算法、推薦機制更有效果。又或者企業直接使用機器學習,機器學習會自主作一些 utem、 item 的建模,甚至是算法之間的競爭關係。

事實上,相比我在 2008 年剛入行的時,如今的推薦系統已經很是複雜,我認爲以後這些會更復雜、愈來愈抽象,現在任何一個公司想本身從 0 開始作推薦系統都會很是困難。可是無論基於我過去的產品經驗,仍是如今在神策數據的經驗,總結髮現其實構建推薦系統的價值觀、企業對於本身公司業務的理解,在整個推薦的搭建過程中起着相當重要的做用。

以上就是個人所有分享,但願對你有幫助!

本文內容來自於近期神策數據舉辦的《智能推薦——應用場景與技術難點剖析》閉門會上的分享內容整理,分享者爲神策數據副總裁張濤,曾就任於騰訊、映客和豌豆莢等知名互聯網公司。

相關文章
相關標籤/搜索