挑戰Deepfake中科大斬獲亞軍，與第一名僅差 0.0005，系Kaggle史上獎金最高的比賽

　　美國大選在即，爲了防範 Deepfake 視頻干擾選情，Twitter 和 Facebook 分別作出了應對策略，Facebook 將會刪除其認定的 Deepfake 視頻，而 Twitter 打算在相關視頻頁面給出提示。算法

　　早在去年年末，Facebook 就拿出 1000 萬美圓當獎金，舉辦全球範圍內的 Deepfake 檢測大賽。這也是 Kaggle 平臺歷史上獎金額度最高的競賽。安全

　　後經半年的酣戰，中國科技大學的俞能海、張衛明教授團隊從全球 2265 支隊伍中脫穎而出，得到亞軍，最終成績與第一名僅差 0.0005。這次挑戰賽共收到 3.5 萬個檢測模型，可以奪得第二，實屬不易。網絡

　　該團隊的周文柏博士告訴 DeepTech，本次比賽所得到的 30 萬美圓獎金會用於實驗室建設和選手獎勵。工具

　　這支名爲「\WM/」的隊伍，主要由中科大信息處理中心的博士後、博士生和碩士生組成。雖然團隊獲獎信息在當時並未引發媒體太多關注，卻在業界廣爲人知。很多企業主動來尋求合做，周文柏透露，華爲、浙江省廣電等企業就但願可以運用人工智能技術，但願預防手機拍攝的媒體素材、或者電臺公開的素材被惡意竄改。性能

　　圖 | Deepfake 檢測挑戰賽（來源：Kaggle 官網）學習

　　算力不優越，卻能取得第二名網站

　　值得關注的是，此次迄今最大規模的 Deepfake 檢測挑戰賽也暴露出，目前的檢測技術遠遠不夠。在訓練數據集上可以達到 90% 準確率的模型，到了驗證數據集上，平均正確率只有 65.18%。人工智能

　　所以兩個階段的名次變更很是大，很多第一階段表現優異的模型，到第二階段敗下陣來。爲何會出現這種狀況？3d

　　這與比賽的數據集有關，進行訓練全部數據集都是預先公佈的；而在驗證環節，許多直接來自視頻網站，基本等同實戰。正是在這些首次遇到的視頻面前，一衆模型紛紛失去了被調教出的火眼金睛。視頻

　　來自中科大團隊的周文柏博士解釋，因爲驗證階段的數據集不少是從視頻網站上獲取的野生數據，這會很是考驗經過已知數據訓練出模型的遷移能力。在第一階段中，排名靠前的許多團隊來自企業，擁有較好的算力資源，所以可能發揮的是算力優點，而非算法優點。

　　在訓練階段一些模型有潛在的過擬合現象。當遇到陌生數據集，這個缺點就會被放大。

　　難能難得的是，中科大團隊卻勢如黑馬。第一階段在 37 名，第二階段直接躥升到了第 2 名。

　　本次比賽中，有的大型企業團隊使用了 100 多塊 NVIDIA V100 GPU，中科大團隊只用了不到 50 塊 NVIDIA RTX 2080Ti GPU。不管是數量仍是性能，中科大團隊所使的 GPU 都與企業團隊有較大差距，卻依舊能獲得最終第二名的優秀成績，這足以說明其算法的優越。

　　圖 | 中科大參賽團隊 \WM / 驗證階段取得第二名，比訓練階段名次上升了 35（來源：Kaggle 官網）

　　Deepfake 檢測屬於二分類的問題，即判斷是真仍是假。現有的分類方法大可能是兩種思路。一種從微觀角度，沿用的是計算機視覺中圖像分類的方式，好比尋找視頻通過篡改所留下的像素痕跡，或是人臉部的細微特徵差別。

　　另外一種宏觀角度，則借鑑了傳統的取證技術的思路，從視頻的總體內容上進行檢測，好比語音信息和人像結合，人物形象和背景融合等方向來尋找線索。

　　周文柏介紹，他們團隊的思路則介於微觀和宏觀之間，將 Deepfake 檢測當作一個細粒度分類的任務。傳統的圖像分類是指將花、貓、鳥等對象進行分類，而細粒度分類任務則是在某一個大類下，繼續分出不一樣的類別，好比不一樣的鳥類、不一樣型號的汽車。

　　大多數 Deepfake 視頻的竄改痕跡很是微弱、而且只集中在局部區域，所以模型首先要捕捉到這些細微的篡改痕跡；其次，在應對實際狀況時，包括光照、人臉轉向等不一樣場景的變化，要求模型還能實現細節捕捉。

　　相較於密碼學，或者互聯網通訊這樣的領域，Deepfake 檢測依舊處於很初步的階段，「哪一種方法效果好，就向哪一個方向去靠近，沒有完整的理論體系。」周文柏形容，「咱們可能抓住了問題比較本質的角度，因此取得了比較好的效果。可是如今認爲的這套理論也不必定正確。」

　　目前的 Deepfake 檢測只能判斷視頻是真仍是假，在接下來的研究中，周文柏和同事想實現對視頻的僞造作出解釋。此外，還但願更多地利用視頻幀與幀之間的信息做爲檢測依據。

　　目前已經有一些方法在利用這種幀與幀之間的關聯進行檢測，可是利用還不充分，這就致使視頻的檢測結果每每差於圖像。「但視頻有一個持續的特徵，有可能比圖像包含更多的信息，因此視頻檢測還具備很是大的研究空間。」此外，利用生物信號來檢測，也是值得研究的方向。

　　信息和人工智能安全研究團隊，多項技術已經應用

　　在這次 Deepfake 檢測比賽中憑藉普通的算力支撐，得到了第二名，顯示了中科大團隊在人工智能安全領域的實力。這只是團隊的成果之一。俞能海、張衛明教授團隊來自中科大信息處理中心，他們研製的多項技術已在實際中運用。

　　圖 | 俞能海（左）、張衛明（右）（來源：中科大官網）

　　其中，「攝屏溯源水印」技術已在中電科、國家電網、中國電子、中國金融期貨交易所等多家單位應用，並在 2019 年國家網絡安全宣傳週得到「網絡安全創新產品優秀獎」（第一名）和最具投資價值獎。

　　電子時代的信息形式發生了改變。在不少時候，電腦屏幕上的內容被手機隨手拍攝，就能夠輕易流傳出去，而且由於沒有物理痕跡，難以查證。

　　中科大團隊開發出的「數字水印」就是在電子屏幕上以人眼看不見的方式打上水印。這樣，被攝屏的照片就會留下標記，也就是水印中所提供的信息。用特殊的工具從圖片中提取信息，就能夠得知拍攝發生的時間、地點、以及機器識別碼。經過這樣的信息，就能在物理世界中進行泄密溯源和追蹤。

　　圖 | 數字水印技術（來源：受訪者）

　　在人工智能安全領域，團隊也一直在與阿里巴巴進行合做。像淘寶、天貓等平臺的信息發佈審覈中，須要過濾掉危險和有害的信息。可能存在的風險是，攻擊者利用人工智能技術躲過信息審覈。團隊在作的事情就是利用人工智能技術進行防護。

　　深度學習技術目前一直存在沒法消除的漏洞，因而帶來了相應的研究主題：對抗性攻擊。

　　基於深度學習的計算機視覺技術儘管發展很快，卻存在着致命的弱點。舉例來講，一張能夠被模型識別的圖片，若是被加入一些噪聲信息，儘管人眼看不出變化，但模型就沒法準確識別了。

　　除了網絡上的信息安全可能受這項技術影響，這項也已經被美國寫入「算法戰」中。無人機偵測的目的是把軍事目標識別出來，而後傳遞給指揮部。利用對抗技術，將噪音以物理形式添加在武器裝備上，就能夠干擾無人機偵測，造成錯誤的做戰指令。

　　在 Facebook Deepfake 比賽獲獎以後，團隊也接到了許多相關的合做需求，華爲、浙江省廣電等企業但願可以運用人工智能技術，以免手機拍攝的媒體素材、或者電臺公開的素材被惡意竄改。

　　這屬於對於 Deepfake 的主動防護。中科大提供的解決方案就是基於「對抗性攻擊」，在媒體素材上增長噪音，不影響媒體視頻自己的質量，可是卻會對算法造成明顯干擾，從而沒法進行竄改。

　　潘多拉魔盒已開，防患於未然

　　Deepfake 一詞誕生於 2017 年，源於網友將深度學習技術運用到視頻僞造領域，如今這個詞已經泛指圖片和視頻的「人臉僞造」技術。

　　7 月份，麻省理工學院（MIT）發佈了一個 7 分鐘的視頻。視頻中，尼克松總統悲傷地宣佈了阿波羅 11 號計劃失敗：「命運已經註定，那些前往月球進行和平探索的人將留在月球上安息。」

　　這個視頻來自 MIT 高級虛擬中心新成立的「月球災難事件」項目。項目但願能幫助人們理解 Deepfake 可以帶來的危險。

　　圖 | MIT 月球災難事件項目（來源：MIT）

　　Deepfake 自出現以來，從技術發展上而言依舊處於早期階段，只能給人們提供簡單的娛樂。若是從國家和社會安全的層面而言，這項技術未來若是繼續發展，帶來的威脅遠大於便利。

　　這也是爲什麼不管業界、學界、仍是政界都對這項技術高度關注的緣由。

　　「可能如今 AI 換臉尚未掀起大風波，但從我過去幾年的慘痛經歷看，應該提早作好準備，而不是被突發事件打個措手不及。」Facebook 首席技術官邁克施羅普弗（Mike Schroepfer）表示。

　　更痛的記憶來自稍遠的一段歷史：本拉登藉助隱蔽通訊製造了 911 事件。亡羊補牢的結果之一，是以後十幾年隱蔽通訊及檢測技術獲得了快速發展。

　　圍繞 Deepfake，必然也會有一場長期的技術對抗。

　　-End-