極鏈科技張奕：消費級視頻內容識別的算法設計與應用

時間 2019-11-29

標籤科技消費視頻內容識別算法設計應用简体版

原文原文鏈接

近幾年，視頻行業迎來了井噴式爆發，隨着人工智能技術的逐漸成熟，用戶體驗不斷升級。算法

在觀看影視劇、綜藝等視頻時，咱們總能在畫面中看到跟視頻場景相關的廣告，好比當出現地標性建築時，會出現旅遊相關廣告；當觀看明星真人秀節目，會有同款服飾的購物連接。在這背後，是智能視頻識別技術發展的成果。數據庫

近期，極鏈科技AI研究院資深研究員張奕在智東西公開課上進行了主題爲《消費級視頻內容識別的算法設計與應用》的講解，從視聯網產業簡介、智能視頻技術應用於消費級視頻的挑戰、數據的重要性與VideoNet視頻數據集、視頻內容識別的算法設計與應用四大模塊進行了分享。安全

如下爲分享實錄：網絡

在5G和AI的加持下，互聯網演進出三大形態，物聯網，視聯網和車聯網。目前視頻佔據了全網數據的80%，且仍在不斷提升。視頻將成爲互聯網最重要的入口，承擔起信息傳遞介質和互聯網功能載體的做用，進而造成以視頻做爲主要信息傳遞介質和功能載體的互聯網形態，視聯網。龐大的消費級視頻是視聯網的首個落地場景。數據結構

做爲「AI+視頻」行業獨角獸企業，全球視聯網開源操做系統構建者，極鏈科技專一於消費級視頻AI技術研發和商業應用，聚焦以視頻做爲信息和功能核心載體的新互聯網形態——視聯網。以AI技術賦能視頻中的信息，連接互聯網信息、服務、購物、社交、遊戲五大模式，實現基於視頻的新互聯網經濟體。極鏈科技自主研發的VideoAI是視聯網整個生態的底層引擎，VideoOS爲視聯網底層操做系統，是繼PC時代Linux系統和移動互聯網時代安卓系統以後的第三大操做系統。以VideoAI、VideoOS爲基礎，開發出廣告、電商等各種視聯網應用。併發

視聯網的基礎數據即視頻，尤爲是消費級視頻。區別於工業級視頻是利用專業設備在固定條件、固定場景下拍攝的視頻，如監控視頻。消費級視頻是指用戶用手機等便攜式圖像採集設備生成的視頻。消費級視頻有三大特色。一，消費級視頻數據體量巨大；二，消費級視頻的類別多樣，如電影、綜藝、體育、短視頻等；三，消費級視頻場景複雜，如場景內的特效、切換、淡入淡出和字幕，都會對總體或局部產生模糊。以上特色對視頻識別算法提出了更高的挑戰。框架

視頻識別算法自己有較長的歷史，然而受到計算能力的限制，算法各項性能與產品商業化要求間還存在較大的差距。直到2012年，深度學習技術、大數據及GPU算力的結合極大提高了算法準確率和運算效率，拉低了與產品商業化要求的差距。分佈式

衆所周知，深度學習的成功創建在大規模數據集的基礎上。現有視頻數據集從規模、維度和標註方式上都與深度學習算法的要求存在很大差距。今年，極鏈科技與復旦大學聯合推出了全新的VideoNet視頻數據集，具有規模大、多維度標註、標註細三大特色。ide

第一，規模大。VideoNet數據集包含逾9萬段視頻，總時長達4000餘小時。函數

第二，多維度標註。視頻中存在着大量的物體、場景等多維度內容信息，這些維度內容之間又存在着普遍的語義聯繫。近年來涌現出大量針對物體、場景、人臉等維度的識別技術，在各自的目標維度上取得了明顯的進步。但各視頻識別算法基本針對單一維度來設計的，沒法利用各維度之間存在的豐富的語義關聯創建模型，提升識別準確度。VideoNet數據集從事件、物體、場景三個維度進行了聯合標註，爲多維度視頻識別算法研提供支持。

第三，標註細。視頻標註工做量很是巨大，當前大部分視頻僅針對整段視頻打標籤。而VideoNet數據集對視頻進行了事件分類標註，並針對每一個鏡頭的關鍵幀進行了場景和物體兩個維度的共同標註，充分體現了多維度內容之間的語義聯繫。

那麼，VideoNet數據集是如何進行標註的？首先，對視頻數據進行預處理，即鏡頭分割，並根據清晰度對鏡頭單元進行關鍵幀提取。以後從三個維度進行視頻標註，事件維度上對整個視頻標註類別標籤，物體維度上對鏡頭關鍵幀標註類別和位置框，場景維度上對鏡頭關鍵幀標註類別標籤。目前，VideoNet數據集包含353類事件，超過200類場景和200類物體，總視頻數達到9萬。其中60%做爲訓練集，20%做爲驗證集，20%做爲測試集。

自6月18日「VideoNet視頻內容識別挑戰賽」公佈訓練和驗證數據集以來，截止到8月12日，註冊報名的隊伍已超過360支，其中參賽隊伍當中有來自中科院、北京大學、中國科學技術大學等頂尖高校隊伍以及來自阿里巴巴、京東、華爲、騰訊、大華等衆多知名企業隊伍。預計明年，極鏈科技將會繼續增長VideoNet數據集的規模和標註維度。

消費級視頻的數據特色，對算法系統的處理速度、效率和準確率提出了較高的要求。消費級視頻算法的整體框架分爲五層：一、視頻輸入層進行視頻源的管理；二、視頻處理層進行鏡頭分割、採樣、加強和去噪等工做；三、內容提取層主要分析視頻中內容、語義等信息，進行目標檢測、跟蹤和識別等來檢測目標在視頻中的時間、空間、位置等維度；四、語義融合層進行目標軌跡融合、識別結果融合、特徵表示融合、高層語義融合等；五、在數據輸出層，進行結構化數據管理，方便後續數據檢索與應用。

視頻內容識別維度多樣，包括場景、物體、人臉、地標、Logo、情緒、動做、聲音等。不一樣維度的算法結構有所區別。人臉識別算法結構爲：輸入視頻後進行鏡頭分割，在進行人臉檢測、跟蹤、人臉對齊，根據質量評估過濾，進行特徵提取和特徵比對識別，最後進行識別結果融合，輸入最終識別結果。

在場景識別算法結構中，首先對輸入視頻進行鏡頭分割採樣，有所不一樣的是隻需進行時間間隔分割的採樣，再對視頻進行場景類別的初分類，預處理以後進入卷積神經網合階段，卷積神經網絡經過對不一樣的數據集進行預訓練，獲得不一樣的特徵和描述，將這些特徵進行融合、降維處理獲得特徵表示後，對不一樣場景如高頻場景、次級場景和新增場景，進行分類處理，最終對識別結果進行融合。

在物體、Logo識別算法結構中，有所不一樣的是須要多尺度提取特徵，跟蹤識別物體軌跡，並關注物體類別，對結果進行優化。

在地標識別算法結構中，分爲三步，第一，經過基礎網絡（VGG，ResNet等）得到特徵圖（通常爲最後一層卷積或池化層）；第二，從特徵圖中提取特徵（例如R-Mac，SPoC，CroW，GeM等）並用ROI Pooling，PCA 白化，L2-歸一化等方式處理，通常最終維度爲256，512，1024，或2048；用kNN，MR，DBA，QE，Diffusion等方式將獲得的特徵對數據庫內的特徵進行後處理得到最終特徵；訓練模型通常損失函數採用contrastive loss或triplet loss，最終比對通常採用餘弦或歐式距離。

咱們自主研發的算法主要作了如下優化：1. 對基礎網絡進行多層的特徵提取（而不侷限於全鏈接的前一層）並融合，降維等。2. 採用CroW算法的核心思想對特徵圖的不一樣空間點以及channel增長權重，不一樣於CroW算法，咱們的權重是經過端到端方式學習所得到。在201八、2019年Google地標識別挑戰賽中，極鏈科技AI研究院蟬聯了兩屆全球冠軍。

下面，介紹一下視頻檢索，也就是以圖搜視頻的流程。以圖搜視頻能夠分爲兩部分，一部分是經過視頻深度圖像檢索構建視頻數據庫，另外一部分是用戶檢索時，輸入圖像到第一部分的視頻庫中進行檢索。

具體來看，首先經過視頻下載、視頻數據庫檢索、特徵提取、特徵排序等生成一個特徵表述數據庫，當用戶需求輸入後進行特徵提取、比對、排序和結構展現。這是標準的檢索流程。在算法結構方面，用戶輸入後會通過卷積神經網絡和索引得出粗檢索結果，再經過細檢索進行排序、查詢，最後輸出鏡頭信息，另外也能夠經過劇目信息進行子部檢索減小搜索任務的壓力，同時提升算法的準確率。

以圖搜視頻的核心在於咱們自研的深度圖像檢索模型VDIR，由視頻任務調度系統派發的視頻分片，通過鏡頭檢測分割成片斷，片斷信息通過VDIR會生成視頻信息庫、視頻特徵庫以及哈希索引庫。用戶輸入一張或者多張圖像，同時能夠指定劇目信息，好比古裝劇、玄幻劇等，輸入的圖像通過VDIR算法提取到哈希編碼和特徵，首先會去歷史檢索庫中查找是否有類似的檢索，若是有直接使用特徵即進行細匹配，沒有就會先經過哈希編碼到哈希索引庫中檢索，而後進行細匹配，根據匹配類似度進行排序後，從視頻信息庫中查詢到視頻片斷信息，配合截圖輸出到界面。

深度圖像檢索模型VDIR會輸出兩部份內容，分別是用於快速檢索的哈希編碼以及用來細匹配的特徵，一個片斷的幾個幀特徵或者相鄰片斷的幀特徵並非都須要，由於咱們設計關鍵幀篩選邏輯，只保留關鍵幀特徵。

爲了將以上算法實際落地，還須要進行工程化的工做。在工程化工做中，須要解決如下幾個問題：一、算法進行並行化加速其運營；二、面對高併發狀態解決分佈式系統和多任務調度的問題；三、對資源調度進行算法分割與CPU+GPU配比；四、對高優先級任務規劃處理策略。

最後，向你們介紹一下三個算法實際產業化應用的案例。

VideoAI視頻智能識別和大數據運營系統，實現視頻輸入、識別、結構化數據管理和多維度檢索全流程技術。極鏈科技首創首創全序列採樣識別，對視頻內的場景、物體、人臉、品牌、表情、動做、地標、事件8大維度進行數據結構化，32軌跡流同時追蹤，經過複合推薦算法將內容元素信息升級爲情景信息，直接賦能各類視聯網商業化場景。

靈悅AI廣告平臺，經過VideoAI將全網海量視頻進行結構化分析，對消費場景標籤化，結合品牌投放需求，提供智能化投放策略和批量化投放，讓用戶在觀看視頻時有效獲取相關品牌信息及購買，實現廣告主精準投放的營銷目的和效果。目前經過VideoAI技術的賦能，靈悅AI廣告平臺已完成2012年至今全網熱門視頻，實現掃描累計時長達15,600,000+分鐘劇目複合雙向匹配。開發了965類成熟商業化可投放情景，服務300+百家一線品牌，並與全網頭部流量視頻平臺簽定深度投放合做，實現廣告創新營銷的新動能。

神眼系統，廣電級內容安全多模AI審覈系統，可實現本地部署的高可用技術解決方案，提供長視頻、直播、短視頻的敏感、政治、色情、暴恐審覈服務。產品核心功能包括：智能鑑黃（識別視頻和圖片中的色情、裸露、性感等畫面）；智能鑑暴（識別視頻和圖片中的血腥、暴力等畫面）；政治敏感人物識別（基於政治人物庫，識別視頻和圖片中的國家領導人物或者落馬官員等）；涉毒/涉政明星識別（基於明星庫，結合黑名單，識別視頻和圖片中的涉毒、涉政等明星）。

最後，想和你們強調一下數據對於人工智能發展的重要性。目前半監督、無監督算法還處於研究階段，性能差距較大，咱們所用AI算法大多基於監督學習，所以數據的體量和質量很是重要。咱們要學會思考更多問題，例如採集數據與實際應用間的相關度，常規數據操做有哪些，如何獲取「高效」的數據，如何應用數據管理工具讓咱們更好的管理、應用數據等等。謝謝你們！

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。