做爲優質的信息載體,在視頻誕生至今的 150 年裏,它的傳播過程卻沒有太多改變。而隨着近年機器視覺技術與視頻的充分融合,結合了 AI 的視頻傳播具備多大的社會價值?做爲一家致力於機器視覺研究的雲計算公司,七牛雲會在這場變革中承擔怎樣的角色?算法
NIUDAY 杭州站,七牛雲人工智能實驗室負責人彭垚分享了他的觀點。數據庫
現在在咱們的生活中,攝影機、攝像機隨處可見。但不多有人知道世界上第一部攝影機是如何誕生的。1872 年的一天,斯坦福大學創始人和校長——斯坦福與友人科恩打賭,斯坦福認爲賽馬在奔跑過程當中四蹄並非同時離地,而科恩卻不認同他的見解。兩人爭執不休卻又不能說服對方。因而斯坦福找到了一位科學家,科學家提出了連續拍攝膠片,而後回放看錄像的方法。儘管最終斯坦福輸了賭約,但卻參與制造出了世界上第一臺攝影機。安全
這個故事裏咱們能夠看到,視頻誕生之初的做用就是取證。相比於圖片,視頻的優點在於可以留下動做的過程。服務器
架構
圖 1 第一行是常見的監控攝像頭,最初是用做取證、保障城市和家中的安全。因爲有一部分攝像頭能夠用於聊天,所以也自帶社交屬性。框架
第二行是平常使用的相機、攝像機。最初這些設備被媒體用做取證、記錄新聞。而隨着電影等娛樂業的發展,也漸漸帶上傳播屬性。機器學習
第三行的攝像頭就更加廣泛了,咱們每一個人的手機智能機器人都有攝像頭。它們能夠用來視頻通話、直播,是視頻的入口和來源。ide
咱們到底用視頻作什麼?最先是爲防止記憶缺失留存影像,用於取證;第二個階段是作成媒體素材與別人分享;第三個階段是經過 RTC 與他人進行實時溝通。組件化
以往視頻在傳播過程當中,沒有「機器認知」這一步驟。人們用攝錄設備生產視頻,再將視頻給別人看。從人到視頻再到人,就是一個簡單的過程,惟一的區別是視頻的載體,有多是錄像帶,也有多是在線視頻。佈局
這個過程存在觀看者和拍攝者興趣誤差的問題。觀衆不可能將全部視頻都看一遍,他們只會根據興趣進行挑選。

圖 2
如今,全世界視頻的數量已經遠遠超過人能看的總量。不少場景下,咱們須要這些視頻都被人工看過,但即便全世界的人停下全部動做只看視頻,也不可能看完。因此就須要計算機視覺發揮做用,在人到視頻再到人的過程當中,插入機器認知這一環節,經過攝像頭錄下動做,輔助人把視頻先看一遍。

圖 3
計算機認知裏有不少體系化的東西,最基礎的是代替人作分類。而認知中最簡單的就是判斷視頻是否合法。其次是在視頻畫面中將事物檢查出來,有多少人,幾輛車。也可能將視頻主體輪廓進行分割、再加工,作一些精細化工做。最後還可能作一些更上層的業務,好比大量視頻的檢索和分析等。
七牛雲計算機視覺產品的目標,就是打造一套可以完整支撐、充分理解視頻內容的產品體系。咱們將它稱做 AI Video OS,主要包含三個子系統。
1.智能多媒體 API (DORA) 第一個子系統是智能多媒體API(DORA),它是機器視覺的入口,總體識別及認知引擎都來自這個入口。天天互聯網用戶 App 上傳海量富媒體數據都會調用智能多媒體 API 這個入口對視頻、圖像進行處理、認知。
圖 4
目前七牛雲官網上提供了包括內容審覈、 OCR、場景識別、人臉識別、音視頻處理、圖片處理六大模塊應用呈現。基於七牛雲平臺彈性擴縮容的方法,即便整個平臺天天的數據處理量都在高速增加,服務器也不會承受巨大的壓力。
2.深度學習平臺(AVA) 第二個子系統是深度學習平臺(AVA),負責生成認知模型。經過深度學習平臺生產機器認知模型,並不斷訓練、提高,就能對得到的數據進行更精準的識別。
從 2016 年開始,七牛雲就決定要作這個產品。剛開始作鑑黃等內容審覈工做的時候,有兩位同事負責看涉黃視頻,而且進行標註。但隨着視頻數量增長,不得不投入更多人力進行標註。這時候咱們發現最大的痛點就是大量重複勞動。

從圖 5 能夠看出,機器學習的過程始於用戶行爲(左下角)。有用戶產生的數據後,就要對數據作抽樣、整理、標註等工做,完成標註之後就產生了機器學習樣本,這是一個很緩慢的過程。首先是由於有時候會找不到想要的數據。其次,即便找到了以後,也有不少人工標註工做,還須要寫大量腳本,用於提取數據。因此不少人說「人工智能首先耗的是人工」。
有了樣本以後,就能夠進行訓練集羣訓練,併產生一個模型。而後是對模型在大樣本下的準確性、易用性進行測試,若是知足需求,就能把它用在深度學習平臺。整個流程走通以後,用戶就能輕鬆知道他的內容是否涉黃。
在整個流程中,工做量最大的是圖 5 黃色部分中的「數據整理」,它會花費不少時間。

因而,基於七牛雲,咱們本身搭建了一套深度學習平臺框架(圖 6),最上面的一行就是用來解決這些耗時的問題。主要包括:
每日撰寫迭代訓練腳本
新數據的增刪和管理
增量學習和迭代學習
搭建半監督打標系統
模型的比較和融合
用了這套架構,七牛雲彈性深度學習平臺能大量減小標註人員的工做,短時間內提高模型的能力。
3.大數據富媒體知識庫(LEGO) 第三個子系統是智能大數據富媒體知識庫(LEGO),用於富媒體數據的結構化解構。智能富媒體知識庫將想要學習的內容進行結構化解構,從而幫助深度學習平臺更高效地學習。在整我的工智能環節中,數據是最重要的單元,所以智能富媒體知識庫就成了產品體系中很是重要的一環。

2017 年末,咱們意識到僅學習數據是不夠的。因爲這些數據不成體系,會形成高企的維護成本,因而咱們搭建了大數據富媒體知識庫體系。主要分爲三個模塊(圖 7):
視頻結構化模塊,咱們把視頻結構化、組件化,把 OS 層要素和分割定位工做所有作完,把較大的圖片和視頻變成了隨時可被提取的小組件**咱們很形象地把它叫作樂高。
知識圖譜,經過關聯知識圖譜中的政治人物,咱們能快速將對應的人物導進視頻中。
海量檢索的大數據檢索系統,與傳統主要針對文本內容的檢索系統不一樣,咱們的產品涉及人物特徵、人臉特徵、圖像特徵、視頻特徵,而特徵上會有更復雜的系統結構。因此係統不只支持普通的全文檢索,還能夠在富媒體數據,包括視覺特徵基礎上可以作檢索。

圖 8 是經過樂高引擎作的廣電行業 Demo。經過樂高平臺將庫中的大量視頻進行解構,變成多個小樂高,再進行應用統計:視頻包含多少人臉、多少政治人物、人物出現時間段,並以時間軸的形式呈現。除此以外還能在視頻庫中進行搜索,只要與該人物有關,就能顯示他出現的時間段。

計算機視覺誕生以後,經過整合無處不在的攝像頭,能造成一個信息量最完整的傳感器。經過攝像頭的視覺算法,彙總這些信息,就能幫助城市運營中心在公共治安、環境改善等方面發揮十分積極的做用。社會所以能更高效地運營,實現萬物互聯狀態。
圖 10 列舉了七牛雲幫助解決的一部分社會問題:

1.內容審覈 攝像頭天天都在產生海量的視頻。經過機器認知,咱們能判斷這些內容是否合法,是否適合傳播。

在互聯網領域作了鑑黃鑑暴以後,咱們發現這不只是互聯網公司的責任。政府、廣電與互聯網都須要參與進來,由於廣電、網信辦等政府監管機構也須要人工智能輔助審查違規內容。因此在咱們開發的過程當中,漸漸能判斷信息是否有效、是否良好、是否能在整個傳播環節中更安全、有效地傳遞,避免不良信息對社會的傷害。
七牛雲經過不斷迭代升級視頻模型解決了不少問題。例如,因爲暴恐場面出現低,因此相應的鑑別就很是難,一百萬視頻中真正涉及暴恐的視頻可能就十幾個。但爲了避免遺漏任何一個涉暴內容,識別精度須要達到 99.999% 以上。
2.城市之眼智能監控 公安機關在路邊設置了很是多的攝像頭,有了機器認知以後就能跟蹤不一樣的數據,讓盜竊和各類刑事案件更快偵破,這對社會治安乃至國家安全都頗有幫助。

對於城市相關服務支撐,咱們今天更多回到了行業中。之前咱們認爲傳統安防或者是交警等應用場景會更多,但如今整個城市都須要更智能化地運轉。七牛雲以前作的特種車輛治理、人流密度管控等任務,對社會的治安包括都大有好處。固然這個過程當中最關鍵的幾個視覺的要素仍是「人、物、場景」,其次是用到檢測的識別,包括要在海量視頻中檢索,而且把視頻當中的行爲作一些分析。

圖 13 是上海特種車輛治理的大致框圖,包含危化車等車輛的實時監控和管控。
值得一提的是,城市之眼系統是正是基於 AI Video OS 。其迭代過程包含整套數據運營體系:數據產生、數據認知、數據學習,最終把學習以後更精細的視頻認知能力疊加上去。學習發佈完以後,把分析生成好的新模型,再更新到視頻分析模型和檢測模型當中。隨後,將視頻結構化的數據庫總體更新,得出更多的數據比對,包括碰撞的結果。這些結果輸出後能夠進行告警,或者用作第三方數據的接入,進行大數據分析。

3.媒資智能 用在視頻圖片分類中就能提高平臺視頻圖片的展現,而且根據用戶喜愛進行分發,讓他看到他想看的內容。
好比能夠把一段籃球視頻結構化分割成投籃、傳球等事件。也能夠製做知識圖譜,有了全部球員的知識圖譜以後,就能快速連接到某球員 A 的全部信息。甚至能夠快速知道球員 A 是否與 球員 B 作過隊友,是否加入了某個俱樂部。經過視頻結構化,咱們能快速獲取各類信息,並在此基礎上對海量視頻進行分類、審查、再生產、智能檢索以及個性化推薦。
4.創新計劃
七牛雲人工智能實驗室根據客戶各類各樣的定製化的需求:識別生產線的問題、識別快遞訂單等識別任務,七牛雲有一套獨立的創新定製化體系知足需求,以更好的服務客戶。

普通的計算機視覺公司目前只是享受到了人工智能的技術紅利。這些公司經過傳統的軟件、硬件形式將最新的技術服務於客戶。而七牛雲做爲一家行業領先的雲計算公司,與他們最大的不一樣點,就是咱們擁有與 AI 密切相關的一整套產品,好比雲存儲、直播、音視頻等。這些產品一旦結合 AI 的能力就可以造成一整套 AI 服務體系。七牛雲正是經過這一整套 AI 服務體系來服務客戶。
天天有不少生視覺內容輸入到七牛雲智能多媒體 API,而後 API 會結構化地進入富媒體知識庫,知識庫將學習資料導入深度學習平臺進行學習,學習完成後就有更多高性能的模型包賦能到 API 上,給客戶提供更優質、更強大的服務。

可自我進化的視頻 AI 生態系統就是七牛雲 AI 創新服務體系最核心的要點。因爲計算機視覺的計算量是很是驚人的,所以即便如今有如此多的 GPU 集羣,有很是大的超算中心,其實解決的還只是幾個比較共性的問題。
目前還有很是多亟待咱們創新、理解的視覺問題。咱們也但願經過七牛雲可進化的視頻 AI 閉環生態體系去構建,去解決更多創新的要求。
本文做者
申請試用 七牛雲 AI 產品
關注公衆號七牛雲 瞭解更多信息哦~