Reference: http://blog.csdn.net/u014114990/article/details/48165781html
日頭條涉及到算法:
(1)今日頭條服務器1000臺左右,經過代碼實現的爬蟲功能,在其餘傳媒的網站和門戶上抓取各類信息。若是在網站上抓取到紙媒的內容,優先從紙媒門戶上抓取信息
(2)抓取信息後,對有價值的信息經過算法進行分析歸類。
(3)推送到有感興趣的今日頭條客戶端
(4)用戶註冊或登陸(新浪微博、QQ、人人網)時,經過數據挖掘分析,對用戶進行分析,推薦感興趣的信息。
(5)推送後,根據用戶的體驗(閱讀時間、評論)判斷信息是否符合客戶需求,再進一步調整推送信息內容。
(6)敏感信息審查算法
(7)網頁轉碼,手機信息打開紙媒或網站信息,因附帶有大量廣告或樣式信息,下載速度很慢,影響用戶體驗,轉碼後保留內容資源,格式更適合閱讀。 服務器
【IT168 評論】互聯網給用戶帶來了大量的信息,知足了用戶在信息時代對信息的需求,也使得用戶在面對大量信息時沒法從中得到對本身真正有用的那部分信息,對信息的使用效率反而下降了,而一般解決這個問題最常規的辦法是推薦系統,推薦系統能有效幫助用戶快速發現感興趣和高質量的信息,提高用戶體驗,增長用戶使用產品時間,並有效減小用戶瀏覽到重複或者厭惡的信息帶來的不利影響。一般推薦系統越精準,用戶體驗就越好,用戶停留時間也會越長,也越容易留住用戶。大數據
1月20日,新生代移動互聯網企業今日頭條在北京國家會議中心舉辦了「算數·年度數據發佈會」,數據發佈會的主題名爲「算數」,實際上指的是「算法」與「數據」。網站
衆所周知,今日頭條是個個性化的新聞推薦引擎。在今日頭條CEO張一鳴看來,算法是《今日頭條》這款興趣推薦搜索引擎應用的核心,這也是與傳統媒體最本質的區別。今日頭條之因此可以很是懂用戶,精準推薦出用戶所喜愛的新聞,徹底得益於算法。而正是精準推薦,使得今日頭條在短短兩年多的時間內擁有了2.2億用戶,天天有超過2000萬用戶在今日頭條上閱讀本身感興趣的文章。搜索引擎
那麼今日頭條是怎麼作到爲每個用戶按興趣精準推薦新聞的呢?在發佈會上,今日頭條的技術副總裁楊震原給咱們揭祕了今日頭條的個性化推薦核心「算法」。spa
今日頭條的個性化推薦算法原理.net
如上圖,有3篇文章,讓3個用戶投票(注:這3個用戶是一類人,有相同屬性(喜愛和偏好)),那第4個用戶應該被系統推薦的文章是那篇呢?第4個用戶與前3個用戶都是一類人,答案顯而易見是第一篇文章。3d
沒錯,今日頭條的個性化推薦算法原理就是基於投票的方法,其核心理念就是投票,每一個用戶一票,喜歡哪一篇文章就把票投給這篇文章,通過統計,最後獲得結果極可能是在這我的羣下最好的文章,並把這篇文章推薦給同人羣用戶過程就是個性化推薦,實際上個性化推薦並非機器給用戶推薦,而是用戶之間在互相推薦,看起來彷佛很簡單,但實際上這須要基於海量的用戶行爲數據挖掘與分析。htm
今日頭條是如何來劃分人羣和文章
搞技術的朋友都知道,內容推薦必須基於受衆人羣,只有在肯定受衆人羣以後才能肯定推薦內容,有的放矢才叫精準推薦。
上面那個例子只是很小的人羣,可是現實生活中不會有這樣小的人羣,並且過小的人羣經過推薦投票的方式也很難推薦出很精細的內容,只能推薦出一些熱門內容,那今日頭條是如何來劃分人羣?
咱們假定上圖這我的羣有8萬人,只有兩類:一類叫喜歡科技的人羣,一類喜歡娛樂的人羣,咱們先分紅兩類,每類有4萬人,咱們又找到另外一個維度地域:上海和北京,喜歡科技的人有上海和北京的,喜歡娛樂的也有北京和上海的,咱們把8萬人羣分紅四組,每組兩萬,咱們再找年齡,30歲以上和如下,咱們分紅8我的羣,每一個人羣1萬人,第1個是喜愛科技,位置在北京,年齡30歲以上,這有1萬人,咱們再如下面的喜歡娛樂,地點上海,人羣1萬。
根據人羣不一樣維度,咱們能夠細分到一個合理的力度。特別須要注意的是:在細分的領域裏面投票數既不要太多,但也不要太少,由於太多沒有個性化,僅是一個大衆關心的話題而已,而投票數太少又沒有統計意義,支持度就低了。
人羣特徵能夠是閱讀姓名,年齡,地域,職業等等。同理,文章也是相似的,文章有提到哪些名人,文章發佈的時間,文章所屬的地區等等,也都有不少特性,這些都是能夠去組合起來。
今日頭條是怎樣判斷一我的屬於怎樣的人羣
判斷一我的屬於怎樣的人羣相對簡單。好比地域,用戶的手機在什麼區域,就能夠認爲用戶是什麼地域的;好比說用戶興趣,能夠根據用戶的閱讀習慣去判斷,用戶會常常去看科技的文章,那就能夠判斷用戶屬於科技的人羣;再好比說用戶的好友關係,用戶在今日頭條上面註冊了,用戶的好友都是娛樂圈的人,則該用戶頗有可能也是娛樂圈的人;因此經過用戶在今日頭條上行爲,以及用戶客觀的地理位置信息,就能判斷用戶到底屬於一個什麼樣的人羣。
今日頭條的個性推薦算法公式
精準推薦最難的不是劃分人羣,也不是判斷用戶人羣歸屬,更不是文章屬性判斷,一我的能夠屬於多我的羣,也有多個文章候選,選那個推薦纔是最難的。而今日頭條的推薦內容是怎麼算出來的呢?
經過上圖的計算公式:W1*候選1的投票率+W2*候選2的投票率+W3候選3的投票率+……=最高分,最後能計算出一個得分,按得分的高低來排序,就能夠獲得推薦文章的一個侯選,這個過程其實是一個比較簡單的算法,而這在今日頭條內部叫邏輯迴歸。
總的來講,個性化推薦技術自己並不神祕,歸根到底推薦算法關鍵是還在於對海量用戶行爲的數據分析與挖掘,也許各家算法略有不一樣,但最終目的都是異曲同工,爲實現最精準的內容推薦而努力中。