咱們都知道,AI技術正在以可見的速度被應用於各行各業,然而絕大部分業務場景想應用AI技術,都須要算法工程師根據自身業務的標註數據,來進行單獨訓練,才能打磨出合適的AI模型。如此一來,如何以最低的門檻和成本,實現AI技術落地變成了行業急需解決的問題。算法
市場上的AI服務很是多,可是在視覺領域,通用的AI服務主要是基於圖像的架構來作的,視頻時代已經到來,基於圖像的AI架構是否還能被普遍應用?阿里雲視頻雲團隊專一於視頻領域,因此在針對視頻的AI處理方面也有獨特的思考和實踐。3月27日下午,第51期阿里雲產品發佈會-智能視覺產品隆重發布,阿里雲高級計算專場周源針對圖像和視頻的AI處理有什麼不一樣?團隊是如何基於視頻構建全新的AI架構?針對AI大量的數據、訓練效果不夠好、時間與成本消耗大等痛點,他們如何解決等以上問題作了悉數解答。網絡
市場上大部分AI的服務,輸入的都是圖像,也就是圖片文件,是基於圖片進行處理。在業界,圖像的算法比較成熟,數量也較多,從大類來看有圖像分類、檢測、識別、分割等等。大部分AI服務的架構也是基本相似,通常包含圖像算法層、引擎框架層、資源管理層、硬件基礎層,以後基於各自的業務領域知識,構建一個面向特定領域的AI推理服務,而後經過API提供對外的訪問。架構
隨着如今視頻(直播、點播、短視頻)的愈來愈普遍應用,內容從原先的圖像分析升級到視頻分析。由於複用已有的技術以及架構的改形成本等等因素,通常的AI服務通常會保持現有的框架,不一樣是把視頻轉換成圖像來進行處理。通常作法是按照固定的時間間隔採樣截取視頻的圖像信息,這樣整個服務架構不須要作任何改動,只是在最上面一層增長了視頻幀截取和結果匯聚的服務。框架
1. 時效性差運維
由於增長了視頻截幀和結果匯聚這樣的中間操做,因此處理時間長;視頻下載下來,處理後圖片再上傳,網絡傳輸也會致使時效性變差;舉個例子,在相同畫質下,使用一張張圖片組成的視頻,和H.264編碼的視頻,大小的比是10:1,圖片是10倍於視頻的存儲量。異步
2. 穩定性學習
視頻截幀通常會採用開源的FFmpeg,若是遇到問題須要解決,比較依賴於開源社區。好比格式和編碼的兼容性、直播、點播中遇到數據異常、時間戳不許、定製協議、分辨率切換、卡死等。阿里雲
3. 複雜性高編碼
把視頻轉換成批量的圖片,就須要對這些臨時的圖片進行管理,另外還涉及順序處理、異步操做、網絡抖動等問題,須要關注的非核心業務功能就要求很是多,致使業務系統總體的複雜性變高。spa
4. 信息丟失
截幀是一種採樣,會引發信息丟失,丟失的信息中頗有可能包含了關鍵圖像。另外,截幀的處理是對沒有時間信息的圖像結果的簡單累加,效果也不理想。
既然有這麼多問題,基於視頻的AI計算該怎麼作呢?
周源所在的阿里雲視頻雲團隊,具備多年音視頻編解碼、媒體處理相關技術經驗,他們推出的面向視頻的新架構是:把視頻做爲第一類對象(First-Class Object)來看待。把視頻解碼、時間域分析、智能匯聚、音頻處理等引入到系統裏面來,把視頻處理和AI計算有機結合,以面向視頻的方式,在視頻處理的同時完成AI計算,精簡的流程可以大幅度縮短處理時間,從時間維度提高分析效果,並能簡化業務架構,讓用戶聚焦在覈心業務的發展上。爲用戶提供高效穩定、簡單易用、功能豐富的視頻AI服務。
1. 時效性高
相較於以前多餘的截幀、上傳等一系列操做,新方案不產生臨時圖片,同時能減輕存儲的帶寬和空間需求。能充分利用視頻的並行分片機制,大幅度縮短總體處理時間。
2. 複雜性低
面向視頻的架構,視頻處理和AI計算集成在一塊兒,簡化了對圖片的處理過程,進而簡化整個處理邏輯,下降複雜度。
3. 穩定性高
阿里雲視頻雲團隊是具備10多年豐富視頻處理經驗的專業團隊,兼容性、運維各類問題都不須要用戶考慮。
4. 效果更佳
對離散的圖像結果按照時間的關係進行更合理的匯聚,得到更優的效果。
周源團隊自研的新架構很好的解決了圖像AI架構時效性差、穩定性差、複雜度高、效果不佳的問題。然而在AI的應用上,開發者也會關注到一些其餘問題,好比:
1. 選擇最合適的算法
基於阿里巴巴在視頻和AI領域的長期積累,已經幫你們選擇好了算法,如今推出的是分類和識別,以後將推出更多算法。
2. 遷移學習——少許數據快速訓練
遷移學習的基本原理是,根據天然圖像中的基礎邊緣、色塊、紋理的規律來概括物體特徵,而且經過在淺層網絡中複用這些基礎特徵,來減小標註數據,能以更快的時間、更高的質量生成業務場景相關數據,大幅度減小數據需求,進一步減小計算量,達到縮短新模型訓練時間的效果,使業務迭代更快。
3. 數據增廣——少許數據更優效果
在深度學習層面,在其餘條件相同的狀況下,數據越多訓練效果是越好的。這就產生了一個問題,更好的效果必定須要更多的數據,這須要花費大量的人力去標註。
智能視覺採用數據增廣策略,增長數據的多樣性,增強模型泛化能力,對圖像進行旋轉、斜切、仿射變換、對比度調整、色度變化、水平鏡像等變換,增長數據量的同時保持增廣數據的真實性,實現了少許數據狀況下效果加強10-15%的訓練效果,同時有效下降標註數據的人力和時間成本。
智能視覺能夠幫助零算法基礎的用戶,快速訓練本身領域的定製化模型,僅須要少許標註數據,完成快速的模型生成、加強的場景效果,並將訓練模型轉換成高可用、彈性可擴展的視頻AI服務,讓用戶可以以最低的成本實現AI技術的落地。
目前智能視覺已經支持圖像分類、物體檢測、直播識別等AI能力,可應用在視頻監控、互聯網短視頻內容識別歸類、新零售物件統計、工業質檢、農業養殖、醫療診斷等場景。
本文做者:樰籬
本文爲雲棲社區原創內容,未經容許不得轉載。