個性化推薦系統(一)---今日頭條等的內容劃分、分類

時間 2019-11-13

標籤個性化推薦系統今日頭條內容劃分分類简体版

原文原文鏈接

這篇文章搞頭條號、運營知乎等流量的兄弟們能夠看看，可讓你瞭解到你的文章是怎麼被推薦的、經過很好的配合頭條、知乎等的技術架構、機制能夠增長你文章的曝光。算法

今日頭條之前進入各大app的流量主要被幾部分刮分，一個是app內搜索、一個是固定頻道、、一個是用戶在閒逛。當前各大app、不管是電商、知乎、新聞等流量一部分仍是app內部搜索，另外大頭就是各大頻道、內容、問答板塊都被個性化推薦把持。微信

今日頭條是怎麼實現個性化推薦的呢？一個是用戶畫像，一個是文章分類，分類是由多種緯度組成，經過用戶在app內搜索、點擊視頻、文章、瀏覽、收藏等app內一些列的操做會不斷對用戶畫像進行完善，而且生成用戶對文章分類的喜愛，經過喜愛給你推薦類似的視頻、文章，最終讓用戶刷不完、離不開。架構

最開始冷啓動今日頭條會推薦給你些八卦、娛樂新聞、熱門新聞、其餘類型文章等多個池子，由於最開始是沒有你的用戶畫像的，由於你在app內沒有行爲，經過微博帳號登陸抓取微博信息進行分析生成畫像這種方式暫時不談。app

個性化推薦系統主體三部分：文章分類、用戶畫像、用戶喜愛均是經過用戶在app行爲，經過數據分析師對數據分析，構建的策略算法，算法工程師構建的模型、以及推薦引擎、特徵工程等一系列的算法、工程最終構成一個內容個性化推薦系統。框架

這篇主要講下文章分類主要包含哪些，怎樣構建文章分類、分類後怎麼使用三個問題。工具

當下內容推薦引擎，文章由標籤、興趣、主題、其中標籤規模最大，標籤oop

又分爲粗標籤數據規模億級別、精標籤數據規模千萬級別，興趣數據規模粗幾十萬級、精十萬級、主題幾百級。多種類型的分類綜合構成文章數據來源。來供feed流使用。搜索引擎

文章分類構建主要由hadoop、hive、spark、strom等工具實現，標籤的構建主要經過對文章進行分詞、經過TF-IDF等算法找出文章能夠由哪些標籤來抽象表達。標籤好比：錘子、堅果、老羅，喬布斯、蘋果、iPhoneX。標籤下文章幾百萬、幾十萬、幾千不等。興趣的構建與標籤相似但力度更大、更粗些，興趣好比：星座、二次元、抖音等等。spa

主題分類由LDA模型經過spark框架計算實現，主題好比：體育新聞、it新聞、娛樂新聞等構成。設計

個性化推薦本質就作一件事：排序。數據計算主要經過hive、spark實現離線的數據排序，排序特徵包含曝光量、點擊量、點擊率、做者權重、文章質量分、等幾十個特徵綜合進行排序，排序結果做爲備選集合。光有離線計算是不夠的、當下推薦系統更增強調實時性，strom準實時框架會根據實時線上上報特徵對文章的排序進行實時調整、好比某大V做者的文章權重很高，排名好得到不少曝光機會，可是曝光機會並轉化成點擊量、這時strom計算會將文章曝光下降，已給其餘文章更多的曝光機會。

搜索引擎的曝光更加集中、最大的曝光基本集中在首頁前三篇，而推薦引擎會拉取多個分類類別、標籤下選擇用戶多個喜愛標籤下文章、多個興趣下用戶喜愛文章、多個主題下用戶喜愛文章。調取特徵、再經過模型實時預估每篇文章點擊量，經過點擊量預估模型預估文章被當前用戶點的概率。

若是文章在熱門的標籤下，偏好標籤的用戶會多，文章排到熱門標籤前幾，那一定會帶來特別大的曝光量、但熱門標籤競爭激烈。冷門標籤偏好人少，可是冷門標籤下文章會少、競爭少，維護好冷門標籤，在固定人羣下也會取得持續不錯的曝光。

後邊文章會詳細寫下怎樣構建用戶畫像、構建熱門分類、通用分類、用戶偏好分類、突發新聞分類召回集、搭建特徵工程、構建點擊量預估模型過程，以及推薦引擎架構、設計、實現。

微信搜索：mydevclub

掃描二維碼關注：