田永鴻教授：視頻大數據挑戰問題與研究進展

時間 2019-11-15

標籤教授視頻數據挑戰問題研究進展简体版

原文原文鏈接

8月31日，2019世界人工智能大會·開發者日，極鏈科技主題論壇在上海世博中心成功舉辦，現場匯聚了300多位行業人士到場，其中包括全球頂尖AI專家、技術大牛、知名企業表明以及開發者，大會以「重構視界·見將來」爲主題，圍繞計算機視覺技術和「AI+視頻」的開發實踐進行分享和解讀。算法

大會現場，北京大學博雅特聘教授&國家傑青田永鴻帶來了主題演講，對視頻大數據挑戰問題進行了深度剖析，並介紹了前沿的研究進展。服務器

視頻大數據三大挑戰問題網絡

當前，已迎來視頻大數據爆炸時代，IDC分析報告顯示，互聯網總數據到2025年將達到175ZB，其中視覺數據爲80ZB。大數據技術與AI是孿生兄弟，大數據賦能AI，讓AI能力更進一步，但也提出了一些新挑戰。架構

視頻數據分析識別長期以來的模式，是經過壓縮造成碼流，解碼後進行特徵提取，再進行分析識別。而最近幾年深度學習應用後，大量深度神經網絡經過訓練把特徵提取和分析識別以端到端方式提取出來。典型的圖像/視頻分析處理系統就是雲模式，視頻存儲、分析與識別均在雲上完成，分析識別的視頻路數與雲服務器的算力成正比。這樣的模式下，有不少潛在問題。框架

問題一，「數據大不等於大數據」的挑戰。數據量大必定是分散存儲，而大數據分析須要視頻數據匯聚在一塊兒，涉及到帶寬支持、視頻壓縮編碼等技術，目前條件很難將視頻大量匯聚。機器學習

問題二，「高通量&低延時」的挑戰。視頻自己是實時媒體，具備高通量的特徵。其中，網絡直播視頻和廣電節目對實時性要求很高。對視頻傳輸技術是一個很大挑戰。ide

問題三，「低價值密度」的挑戰。大量正常視頻是低價值密度，而少許敏感視頻是高價值密度。分佈非均衡分佈對傳統機器學習算法提出了很大挑戰。學習

面對挑戰，在國家和省部項目支持下，田永鴻教授及其團隊推出了視頻大數據處理分析平臺及示範應用，支持高效編碼、特徵表達、對象識別和行爲分析，應用在電視節目、網絡視頻、城市監管等應用中。大數據

仿眼類腦是視覺處理系統演進的必由之路編碼

衆所周知，數碼相機的生物學原型是人類的視網膜。就像數碼相機中能採集「像素」同樣，視網膜能獲取並編碼大量的視覺數據。視網膜中間有兩個部分，一是中央凹，即瞳孔，是爲了看清楚東西，另外一個是外周，與中央凹的視覺神經網絡不同，外周神經網絡能夠提取並編碼場景或物體的特徵，如紋理、輪廓等。從這個角度來看，傳統的數碼相機僅僅只模擬視網膜的一部分功能。

所以，一個天然的問題就是，如何借鑑「人類視網膜同時具備影像編碼與特徵編碼功能」這一輩子物特性來研究和設計一種更高效的攝像頭。咱們稱之爲數字視網膜攝像頭(retina-likecamera)，簡稱爲數字視網膜。數字視網膜架構本質特徵爲：一，有全網統一時間和精確地理位置；二，可以進行視頻編碼和特徵編碼；三，自適應可擴展架構，包括模型可更新、注意可調節和軟件可定義。

視網膜表示的核心技術是視頻特徵的緊湊表達，須要對識別分析準且快，且特徵須要小才能夠大量匯聚。對此，田永鴻教授團隊創建了深度特徵的幀內幀間壓縮框架，利用Hash網絡將浮點型深度特徵進行量化，並根據不一樣的內容設計了不一樣的幀間編碼結構與模式。另外，僅預約義的屬性不能有效區分表觀類似對象，但能夠利用大規模匯聚特徵表示挖掘隱含視覺屬性。

基於此，田永鴻教授團隊與企業合做開發了城市視頻大數據分析平臺，包括特徵與結構分析，計算平臺匯聚網關，業務應用系統等等。應用在城市範圍內特定對象精準追蹤、智能交通實現數字視網膜AI賦能、視頻節目流異常檢測與識別問題中。

雖然傳統認知將眼睛視爲視覺圖像的簡單預濾器，但如今看來，數據打通當中，內腦仿眼是視覺處理系統演進的必由之路。可使用可以生成強大解決方案的機器，以此發現更多未知算法，這些算法或許會超越視覺領域，不單單是視覺，還有包括聽覺、嗅覺、觸覺等，實現將來的VideoAI。