【IT168 評論】互聯網給用戶帶來了大量的信息,知足了用戶在信息時代對信息的需求,也使得用戶在面對大量信息時沒法從中得到對本身真正有用的那部分信息,對信息的使用效率反而下降了,而一般解決 1月20日,新生代移動互聯網企業今日頭條在北京國家會議中心舉辦了「算數·年度數據發佈會」,數據發佈會的主題名爲「算數」,實際上指的是「算法」與「數據」。html
衆所周知,今日頭條是 面試
那麼今日頭條是怎麼作到爲每個用戶按興趣精準推薦新聞的呢?在發佈會上,今日頭條的技術副總裁楊震原給咱們揭祕了今日頭條的個性化推薦核心「算法」。算法
今日頭條的個性化推薦算法原理spa
如上圖,有3篇文章,讓3個用戶投票(注:這3個用戶是一類人,有相同屬性(喜愛和偏好)),那第4個用戶應該被系統推薦的文章是那篇呢?第4個用戶與前3個用戶都是一類人,答案顯 沒錯,今日頭條的個性化推薦算法原理 今日頭條是如何來劃分人羣和文章3d
搞技術的朋友都知道, 上面那個例子只是很小的人羣,可是現實生活中不會有這樣小的人羣,並且過小的人羣經過推薦投票的方式也很難推薦出很精細的內容,只能推薦出一些熱門內容,那今日頭條是如何來劃分人羣?htm
咱們假定上圖這 根據人羣不一樣維度,咱們能夠細分到一個合理的力度。特別須要注意的是:在細分的領域裏面投票數既不要太多,但也不要太少,由於太多沒有個性化,僅是一個大衆關心的話題而已,而投票數太少又沒有統計意義,支持度就低了。blog
人羣特徵能夠是閱讀姓名,年齡,地域,職業等等。同理,文章也是相似的,文章有提到哪些名人,文章發佈的時間,文章所屬的地區等等,也都有不少特性,這些都是能夠去組合起來。排序
今日頭條是怎樣判斷一我的屬於怎樣的人羣get
判斷一我的屬於怎樣的人羣相對簡單。好比地域,用戶的手機在什麼區域,就能夠認爲用戶是什麼地域的;好比說用戶興趣,能夠根據用戶的閱讀習慣去判斷,用戶會常常去看科技的文章,那就能夠判斷用戶屬於科技的人羣;再好比說用戶的好友關係,用戶在今日頭條上面註冊了,用戶的好友都是娛樂圈的人,則該用戶頗有可能也是娛樂圈的人;因此經過用戶在今日頭條上行爲,以及用戶客觀的地理位置信息,就能判斷用戶到底屬於一個什麼樣的人羣。數據分析
今日頭條的個性推薦算法公式
精準推薦最難的不是劃分人羣,也不是判斷用戶人羣歸屬,更不是文章屬性判斷,一我的能夠屬於多我的羣,也有多個文章候選,選那個推薦纔是最難的。而今日頭條的推薦內容是怎麼算出來的呢?
經過上圖的計算公式:W1*候選1的投票率+W2*候選2的投票率+W3候選3的投票率+……=最高分,最後能計算出一個得分,按得分的高低來排序,就能夠獲得推薦文章的一個侯選,這個過程其實是一個比較簡單的算法,而這在今日頭條內部叫邏輯迴歸。
總的來講,個性化推薦技術自己並不神祕,歸根到底推薦算法關鍵是還在於對海量用戶行爲的數據分析與挖掘,也許各家算法略有不一樣,但最終目的都是異曲同工,爲實現最精準的內容推薦而努力中。
若是你看的還不過癮,欲知更多(阿里、騰訊、網易、58同城、豆瓣等)知名站點推薦系統技術內容,請點擊(牛逼站是怎樣煉成的?-推薦系統篇)