爲拯救爸媽朋友圈,達摩院造了「謠言粉碎機」

生命不可能從謊話中開出燦爛的鮮花。算法

前幾天,母上大人給我發了條消息,再三叮囑幫忙擴散,隨手解救癌症患者。安全

「速轉!科學家發現:一味中藥48小時可殺死60%癌細胞!」網絡

回覆框裏,我打了一段長長的反駁文字。在按下發送前沉思良久,爲了保住每日的晚飯,我又默默刪除了。學習

母上大人的朋友圈,啥都不說了測試

從那句熟悉的「狼來了」開始,謠言開始在咱們生活無孔不入,一些不壞好意的人,把謊話變成一張漂亮的包裝紙,裹挾着詐騙、虛榮、不懷好意,肆意橫行:網站

當全民瘋搶板藍根食鹽白醋,終日人心惶惶;spa

當「養生祕聞」「200%理財回報」充斥在朋友圈,無數養老錢血本無歸;翻譯

當「寒門狀元之死」透支人們對世界的信任;
......索引

人們被迫練就了一身硬邦邦的鎧甲,一邊斜眉冷視周圍的世界,一邊草木皆兵地生存。寧肯信其有,不可信其無。事件

然而,總有人想改變這一切。達摩院的科學家們最近在用AI識別謠言的研究上,有了一些小突破。

「謠言粉碎機」,也許離咱們並不遙遠?

(1)

在瞭解到這個信息後,我第一時間採訪到了達摩院NLP團隊的核心成員之一——李泉志,他本科畢業於清華大學,後在美國得到天然語言理解方向的博士學位,目前在達摩院的西雅圖辦公室工做。

李泉志,達摩院智能實驗室科學家

在加入達摩院前,他曾是世界級通信社——路透社重要的「情報官」:經過機器篩選成千上萬的網絡信息,爲數千位一線記者提供可靠線索。

藉着這個可貴的機會,我「假公濟私」,請泉志使用算法鑑定我媽發來的新聞真假,還原「打假」現場。

在泉志的詳細說明下,一個使人驚歎的「打假」模型逐漸露出。事實上,這個運算邏輯遠比我以前想得要複雜,甚至顯得有點「老謀深算」。

泉志告訴我,判斷一個新聞真假,要分三個步驟。

首先,在盤根錯節的信息裏,機器會找到最初的信源,分析其用戶畫像(專業領域,我的或機構,機構類型,影響力,過去發表的內容類型,是否可信,地域,註冊時間,活躍規律等),進而判斷此發佈者的信譽度。

若是這條新聞帶有連接,咱們能夠再看看連接的域名,是否來自可信網站,好比新華社、政府醫藥管理局。

接下來,咱們拿起聽診器,細細揣摩正文的「心跳聲」:

「一味中藥48小時可殺死60%癌細胞!」打開正文,咱們看看究竟這味中藥的成分是哪些?具體對哪些癌細胞起做用?機器會把這些關鍵的論證提煉爲知識點,與知識圖譜裏的權威知識庫作匹配驗證。若是毫無聯繫、自相矛盾,減分。

泉志表示,除了內容不實、上下文邏輯不連貫外,機器還能從行文風格里找到蛛絲馬跡。好比:

「多一次轉發就多一次活命機會」

「傳瘋了!晚上必定要關wifi,太嚇人了」

......

是的,機器連「標題黨」都不放過!假新聞常常會採用誇大性、空洞的說辭來危言聳聽。真新聞每每行文嚴謹、一絲不苟。

若是說前面兩步,還算是常規操做。第三步,就是關鍵:對傳播路徑的深刻分析。

一條謠言在社交網絡裏引爆,必然有無數的人密集關注。在留言、轉發等行爲裏,有人贊同,有反對,還有質疑,或者只是簡單的路過,都是一種態度。

機器統計不只能統計全部用戶的態度,更難以想象的是,它會「看人下菜」,區別對待每條發言的份量。

好比,我弟轉發了母上發來的新聞,冒着零用錢縮水的危險表示:「假的!昨天食品監督局已經公開闢謠了」——這條反對意見質疑得較爲有力,權重提高。

隨後,ID爲「小旺仔」的用戶也在此條新聞下留言,只寫了四個字:消息不實。雖然寥寥數字,可是機器一看,不得了,小旺仔的認證信息是該省第一附屬醫院的醫學教授,權重也得提高。

機器會對全部反饋用戶進行畫像分析:是不是認證用戶、過去發表的內容類型、註冊時間、活躍規律、是否和事件發生地在同一個地方等,以此來計算用戶信譽度。最後根據不一樣態度的人羣比例、各自的信譽度,以及處於傳播路徑中的位置等信息,計算出此新聞的可信度。

「若是有人轉發了小旺仔的留言,表示‘舉雙爪支持’,系統會不會認爲這是對新聞的贊同?」我感受本身抓到了系統漏洞,有點小激動。

泉志表示這個問題提得很是好,接着乾脆地作了否認:「咱們的整個傳播路徑是個神經網絡,環環相扣,不會斷章取義的。」

以上三步中計算出的信息會輸入到神經網絡模型中。基於這些信息,模型會綜合判斷出此新聞是否爲謠言。

(2)

這個模型的魅力之處在於,你沒必要爲它編寫程序去學習人類的指令:它能徹底自主學習訓練,就像人腦同樣「思考」。隨着知識庫的日益豐富,它的判斷能力會愈來愈好。

「簡直是一位飛速成長的大編輯!」我感嘆道。

「這還不是所有」,泉志爽朗笑了,「咱們還用了多任務學習,‘一心多用’,讓機器在同一時間完成多個複雜任務,判斷內容真假、觀察傳播路徑、挖掘用戶畫像這些都能同時進行。」

在有條不紊的運算機制裏,機器就像一位冷峻的解剖師,切開浮誇的表象,梳理每一條新聞的經脈、肌理走向,抽絲剝繭,層層剝開,最終找到事實的內核。

泉志接着又透露了一個重要信息——這項技術不只能控制假新聞源頭、防止謠言大規模擴散,它還有一個隱藏的「大招」。

傳謠容易,闢謠難。謠言的擴散速度猶如遇到林木的大火,一點即燃,可是當真相出來時,卻每每無人問津。

好比,網絡曾謠傳市面上的香蕉大多泡過藥水,許多人今後再沒買過香蕉。即便數年後風頭過去,還有人表示吃香蕉總以爲有藥水味。

這項技術的隱藏」大招「,是能夠針對性地爲民衆闢謠。根據傳播路徑索引,曾經支持「香蕉浸泡毒液」的人,均可以收到官方的闢謠信息:香蕉浸泡的白色液體不是甲醛,而是符合國家安全標準的保鮮劑,無毒無害;吃醬油不會變黑、開水重複燒也不會有事,交999元每個月回報99的「好事」天然更是子虛烏有。

善始善終,皆大歡喜!

(3)

達摩院所研發的「AI謠言粉碎機」,在剛剛結束的SemEval全球語義測試中,創造了假新聞識別準確率的新紀錄,達到了史無前例的81%。

SemEval 是天然語言處理領域的國際權威比賽,由國際計算語言學學會舉辦。假新聞識別是這次比賽的主要項目之一,吸引了哥倫比亞大學、華盛頓大學、艾倫·圖靈研究所等20多路頂級高手參與。

賽題是這樣的:

主辦方向全部參賽者提供社交媒體上470餘條新聞、以及一萬多條相關的留言、轉發等數據。參賽者須要根據這些有限的信息,判斷這數百條新聞是真是假。

這些似是而非的新聞涉及政治、娛樂、商業、科技等多個領域,好比——

特朗普的差旅開支遠遠低於奧巴馬;

太陽報:英國女王支持英國脫歐;

震驚了!颱風事後,高速公路出現一條大鯊魚;

美國九成媒體被六家公司控制;

吉薩金字塔能利用隱祕的房間集中電磁能能量;

......

這次比賽桂冠由達摩院NLP首席科學家司羅所屬的團隊斬獲,真假新聞二分類上的準確率高達81%,刷新了本競賽系列上macro F 、RMSE兩項關鍵性指標的世界記錄。

在此以前,達摩院NLP團隊曾在機器閱讀理解頂級賽事SQuAD上,憑藉82.440的精準率打破了歷史紀錄;在國際頂級機器翻譯大賽WMT上,連奪英文-中文翻譯、英文-俄語互譯、英文-土耳其語互譯5項第一。

讓機器讀懂人類語言,並判斷人類的表達意圖,從而進一步幫助人類實現對信息真假的判斷,達摩院的科學家們,從未放棄對技術難題的攻克。

(4)

隔着一萬多公里的太平洋,與泉志說再見後,我忽然想起了今年春晚的小品《「兒子」來了》:葛優飾演的保健品銷售員,用誇張的「牀墊」欺騙一對老夫妻。

從「狼來了」到「兒子來了」,信任在不知不覺中成了世上最高的門檻。

咱們知道天下不會掉餡餅,但當週圍人都在轉發高額理財新聞時仍會忍不住動搖;

咱們本不會勤於研究飯菜的化學中和反應,但萬一同時吃了螃蟹和香菇中毒呢;

咱們從不擔憂銀行沒收存款,但在接到短信「銀行卡已被凍結需支付保證金」時虎軀一震……

人類的原始本能告訴咱們要相信彼此,然而世界正變得日益龐大和複雜,道德、名聲的影響力已不如往昔,傳統的信任出現了縫隙。

「謠言粉碎機」技術的背後,是一次前所未有的信任重建。只有假新聞被扼殺在繁衍的溫牀裏,破碎將傾的信任纔會被從新扶起頂天立地。

而信任,是愛的最好證實。

AI = 愛。



本文做者:孝楊

閱讀原文

本文來自雲棲社區合做夥伴「阿里技術,如需轉載請聯繫原做者。

相關文章
相關標籤/搜索