今日頭條這類資訊聚合平臺是基於數據挖掘技術,篩選和推薦新聞:「它爲用戶推薦有價值的、個性化的信息,提供鏈接人與信息的新型服務,是國內移動互聯網領域成長最快的產品服務之一」。自從2012年3月建立以來,今日頭條至今已經累計激活用戶3.1億,日活躍用戶超過3000萬。web
本文嘗試從技術層面分析今日頭條的傳播機制和相關原理。算法
今日頭條是一個典型的數據新聞平臺,其新聞來源除了合做媒體以外,很大一部分來自於搜索引擎的網絡爬蟲。網絡
網絡爬蟲是什麼?機器學習
STEP 1:從互聯網各個角落收集信息;工具
STEP 2:將其中的新聞類信息進行彙總;學習
STEP 3:彙總的信息通過基於機器學習的分類和排序,劃分出每個時刻的熱點新聞。優化
今日頭條做爲數據新聞平臺,與通常數據新聞的區別,在於提供一個媒介平臺,展現彙總的信息,而不是一條信息。網站
網絡爬蟲的工做機制是什麼?搜索引擎
網絡爬蟲的工做機制依賴於會聯網互聯網上的超連接網絡。人工智能
在互聯網上多數網頁,都有超連接存在。這些超連接將各個網頁連接起來構成了一個龐大的網絡,也就是超連接網絡。爬蟲做爲一種網絡程序從一些網頁出發,保存網頁的內容,尋找網頁當中的超連接,而後訪問這些超連接,並重復以上過程,這個過程能夠不斷進行下去。如圖所示:
「今日頭條」怎麼計算:「網絡爬蟲+類似矩陣」技術運做流程
STEP 1:爬蟲從一個種子節點0開始爬取網頁內容,
STEP 2:抓取的同時發現兩個超連接,並爬取第一級節點,
STEP 3:從第一級節點開始又發現第二級節點,這個過程不斷進行下去。
這個過程中有兩種策略:
一、只有窮盡一個層級的全部頁面才爬取下一個層級,這種策略叫作「廣度優先」;
二、發現一個超連接後,馬上就開始爬取這個網頁,並持續深刻下去,這種過程叫作「深度優先」。
補充說明:
上圖是一個樹狀網絡,現實的網絡不是這麼簡單的,裏面充滿了「迴路」,即新發現的網頁裏的超連接指向的是已經爬取的老節點。這個時候就須要甄別那些網頁已經被成功抓取。
舉個栗子——
以今日頭條爲例說明一下網絡爬蟲在新聞抓取中的工做流程:
STEP 1:工做人員先要在後臺設置新聞來源的字典,好比「網易新聞」、「新浪新聞」、「鳳凰新聞」、「浙江新聞」等等,
STEP 2:經過這些字典,網絡爬蟲將會鎖定到這些網站的超連接,從中抓取新聞。
補充說明:
若是這條新聞是在這些新聞平臺相關的博客當中的內容,而不是新聞平臺自己的新聞,網絡爬蟲就抓不到了。
聚合媒體的概念並不是如此簡單,除了匯聚來自不一樣媒體的內容以外,聚合媒體更重要的特徵是對不一樣信息進行分類並排序,獲得一個信息彙總界面(aggregator),這種信息彙總每每表現爲某種排行榜。這種排行榜在傳播機制上知足網絡科學中所說的「優先連接機制」,即用戶的注意力更傾向於投向那些排名靠前的信息,這個過程能夠被經典的傳播學發現:「樂隊花車效應」。這個發現起源於美國的選舉過程。候選人會站在樂隊花車上拉選票,贊同者會站到他的車上。研究發現,人們傾向於登上那些站滿了人的花車,而非那些只有不多人的花車。
個性化推薦在今日頭條當中發揮着重要做用。
今日頭條的用戶登陸很是人性化。做爲一個後起之秀,今日頭條很是具備策略性地容許用戶使用微博、QQ等社交帳號登陸。這個過程實際上受權今日頭條挖掘我的社交網絡的基本信息。於是,便於獲取用戶的個性化信息,好比用戶的興趣、用戶屬性。越用越懂用戶,從而進行精準的閱讀內容推薦。
個性化推薦的基礎是構建推薦系統
推薦系統普遍地應用於用戶沒有明確需求的場景。推薦系統就算法而言,能夠分爲:
社會化推薦(Social recommendation, 好比向朋友諮詢);
基於內容的推薦(content-based filtering, 例如根據用戶觀看過的電影推薦其餘與之類似的電影);
基於協同過濾的推薦(collaborative filtering,例如查看排行榜,或者找到和本身興趣類似的用戶,看看他們最近看什麼電影)。
因此,能夠用於構建推薦系統的信息也分爲三類:好友、歷史興趣、註冊信息。
推薦系統就是能夠關聯用戶和物品的一種自動化工具。除了這些信息以外,時間、地點等信息都可加入到推薦系統的構建中來。如今,推薦系統已經普遍地應用於新聞推薦、圖書推薦、音樂推薦、電影推薦、朋友推薦等領域,做爲人工智能的一種形式,極大地方便了人們的生活和交往。
推薦系統算法的基礎就是要構造類似性矩陣
這種類似性矩陣能夠是物與物的類似性,例如書籍之間的類似性、音樂之間的類似性。如下以基於物品的協同過濾算法(item-based collaborative filtering, ItemCF)爲例。基於物品的協同過濾算法能夠利用用戶的歷史行爲,於是可使得推薦結果具備很強解釋性。好比,能夠給喜歡讀足球新聞的用戶推薦其它類似的新聞。基於物品的協同過濾算法主要分爲兩步:
STEP 1:計算物品之間的類似度。
STEP 2: 根據用戶的歷史行爲生成用戶的推薦列表。
假設有四個用戶:
用戶1在今日頭條的瀏覽記錄是[a、b、d],
用戶2的瀏覽記錄是[b、c],
用戶3的瀏覽記錄是[c、d],
用戶4的瀏覽記錄是[b、c、d];
可將這四我的的瀏覽行爲表達爲如下四個物品矩陣:
將個體用戶的物品矩陣相加,能夠彙總爲全部的新聞矩陣M,M[i][j]表示新聞i和新聞j被多我的同時閱讀的次數。以下所示:
矩陣邏輯
若是兩個新聞被多我的同時瀏覽,那麼能夠說它們之間的類似度更高。
將以上矩陣歸一化就能夠對矩陣進行操做並計算新聞之間的類似度,好比相關類似度或者餘弦類似度。
基於物品間的類似性度,若是有一個新用戶進入系統,而且他閱讀了新聞c,那麼ItemCF算法能夠很快給出與新聞c類似度最高的新聞(b和d),並推薦給這個新用戶。
在推薦過程當中,推薦系統能夠根據用戶的行爲不斷優化類似矩陣,使得推薦愈來愈準確。
或者,若是用戶能夠手動對每一個新聞的興趣(如喜歡或討厭)標出,就可使得推薦更準確。
本質上來講,上面兩個圖是熱點新聞、以及我的定製新聞的基礎原理。它分爲兩步完成:
STEP 1:先找出新聞之間的熱點與類似度
STEP 2:將熱點與類似度高的新聞推送給用戶。
舉個栗子——
假設在抗打敗利70週年當天,有4我的同時瀏覽今日頭條的新聞,
A是女讀者,她點擊了秋季糖水製做方法、育兒應注意的五個事項、閱兵式、新型武器等新聞,
B是中年上班族,他點擊了閱兵式、中國最新兵器譜等新聞,
C是一位年長者,他點擊了養生、閱兵式、新型武器等新聞,
D是一位剛畢業的男大學生,他點擊了英雄聯盟攻略、好萊塢旅行攻略、閱兵式、新型武器等新聞。
熱點和類似度的產生過程:
STEP 1:這四我的同時點擊閱兵式和新型武器,系統算法就會經過點擊和停留的時間計算出閱兵式和新型武器是當天的熱點。
STEP 2:閱兵式和新型武器同時被多人點擊,表明他們之間具備類似性。
STEP 3:當新進用戶點擊新聞時,今日頭條會以最快速度分析他點擊的內容,並在已經排查出的熱點新聞當中尋找他所感興趣的相關內容匹配給他,引導他閱讀熱點。
這一系列的行爲都由計算機自動完成。
機制的缺陷
上面的例子說明了定製新聞以泛熱點新聞爲基礎數據來完成的事實,這就出現一個問題,即當一我的關注的新聞不是熱點時,系統得不到相關的熱點,就會在該新聞當中尋找其餘信息進行再匹配,這樣匹配出的新聞在現有信息的基礎上最大程度吻合了用戶的興趣,但未必會推送當天最熱點的新聞。要想達到這種長尾理論所設想的定製服務,關鍵是對新聞的細分。只有將不一樣主題細分紅各類子主題,再細分下設內容,才能達到真正的私人定製。要作到這一點,實際已經脫離了機械,而在於人對於事物性質的認知與把握。正如法國社會學家福柯在《知識考古學》當中的觀點,分類,是一事物區別於其餘事物的根本。而分類,歸根結底是人的主觀能動性的體現;當系統中累計的用戶行爲越 多,這種分類越準確,自動化的私人定製也會越貼近用戶需求。
聚合媒體在國外的應用也很是廣闊。信息在聚合媒體的數據新聞平臺上的展示,能夠是傳統的搜索引擎的平面化展示,也能夠是可視化展示。後者如日本的新聞地圖網站(http://newsmap.jp)。日本的新聞地圖項目是基於谷歌新聞作的,它採用不一樣的顏色將新聞類別區分開來,如紅色表明「World」,黃色表明「National」,用戶能夠經過勾選頁面底部的分類欄進行篩選,在頁面頂部能夠按照國家和地區進行篩選。網站後臺算法依據相關新聞信息的數量、重要性、點擊量自動調整每一個新聞所佔面積的大小。
一個很是有意思的聚合新聞網站是GDELT。 GDELT項目(The GDELT Project,http://gdeltproject.org/)監測全球100多種語言實時的廣播、印刷和網絡新聞,識別新聞中的人、地、組織、數量、主題、來源、情緒、時間。基於此,GDELT推出了全球新聞情緒地圖,數據每個小時更新一次。其中綠色表示快樂,黃色表示悲傷。數據密度反映了新聞的規模,見下圖:
另一個很好的例子是社交新聞網站,主要以Digg、Reddit等。這種類型的網站容許用戶註冊、相互關注、提交新聞並對新聞進行打分。其中,得分高的新聞就會進入到流行新聞的頁面。在這個過程中,各個用戶充當了新聞的把關人,而這種信息把關的方式被稱之爲羣體把關。
可是,羣體把關的意義主要在於將新聞推到流行頁面(webpage ofpopular news),也就是公衆面前。這個階段以後流行信息擴散更像是傳統媒體的新聞擴散方式。其實,這種基於用戶過濾的新聞聚合(news aggregation)存在很是廣泛,例如新浪微博上的「熱門話題」、推特上的「趨勢性話題」(trend)等。根據筆者對Digg上新聞擴散的分析,這種新聞聚合對於信息擴散的影響更大,對於那些傳播普遍的Digg新聞,70%以上的信息接觸是經過熱門新聞被Digg用戶看到的。
從媒體把關到羣體把關是一個進步,從羣體把關到計算機或算法把關則隱藏着危險。
過去由編輯所承擔的內容揀選的工做,如今交給了計算機來處理。其信息把關機制發生了根本的變化。在這個過程中,受到最大影響的是傳統的新聞生產邏輯。傳統的新聞觀重視公衆利益,報道具備長遠影響的事件並提供看法。將這些工做交給機器和算法將帶來史無前例的挑戰:
首先,算法根據使用者所表現出來的「興趣」進行分類和推薦信息,每每容易給用戶推薦一些低質量但用戶短時間內喜歡的信息。
其次,不斷地接觸低質量的信息使得個體的新聞素養下降。過於依賴機器幫助咱們進行信息把關,容易致使視角愈來愈侷限,再也不關注社會總體利益,容易走向犬儒主義。
再次,主流的新聞操做手法保障了新聞從業者面對政治、軍事和社會力量時的獨立和從容。而推薦算法從信息和用戶出發,對於國家和社會總體的關注不夠,這種新聞推送機制的偏向容易帶來攻訐。
從將來新聞的視角來思考新聞行業的轉型更加使得咱們意識到迴歸新聞本質的重要性。
將來的新聞行業不只僅是提供有限的案例訪談,而是系統地獲取、積累並分析數據,並挖掘隱含其中的信息。在注意力經濟的時代,向用戶提供這種專業化的信息、專 業化的評論纔是媒體的責任。目前迅速崛起的數據新聞正在走向這個方向,只不過在現階段更注重可視化表達。聚合媒體將信息過濾自動化,體現了將來新聞的特 點。基於個性化的推薦,聚合媒體將人工智能的新聞整合功能進一步帶進咱們的生活,提供了不少便利。可是,不該該忽略的是,要警戒太依賴機器和算法所潛藏的 危險:算法或計算機把關有損新聞價值取向。
將來的新聞業,走向人機結合的時代。
做者:王成軍(南京大學新聞傳播學院助理研究員,奧美數據科學實驗室主任,計算傳播學中心研究)
本文摘編自《傳媒評論》2015年10月刊
End.