阿里雲視頻雲技術專家 LVS 演講全文:《「雲端一體」的智能媒體生產製做演進之路》

2020年11月1日,阿里雲視頻雲亮相 LiveVideoStackCon 音視頻技術大會,阿里雲智能視頻雲高級技術專家鄒娟,就智能媒體生產展開主題演講——《「雲端一體」的智能媒體生產製做演進之路》,如下爲完整的演講內容:html

你們好,我是來自阿里雲視頻雲的鄒娟,我在視頻雲是負責媒體生產平臺的架構設計和開發工做。我今天分享的主題是「雲端一體的智能媒體生產製做的技術演進之路」。個人整個分享將會從三個部分來展開。web

Part 1 媒體生產製做技術的演進

第一部分是媒體生產製做技術的演進,若是咱們把製做放大到整個視頻全鏈路的範圍來看的話。視頻全鏈路是把它抽象成了5個環節,從採集開始,歷經製做管理,最後是分發和消費。算法

之前到如今,過去這麼多年,視頻技術在整個行業發展了好幾十年。在整個環節的流轉當中,視頻全鏈路的每個環節之前跟如今都發生了很大的變化。數據庫

好比,在採集環節,咱們從最開始的採集過程,必需要經過專業的像索尼松下這種攝像機來去拍攝。到如今咱們能夠用手機就可以拍攝視頻。在製做這個環節,咱們從最開始必需要用專業的非線性編輯軟件和桌面的這樣的工具,或者是像這種演播車硬件導播臺來去作這種後期或者實時的製做,如今,咱們能夠在手機上一鍵美顏,能夠在外部上作在線的剪輯。canvas

從管理來看,最開始傳統模式是咱們須要用人工的方式去進行原數據的編幕,而後要歷經不少個審覈的環節,到如今咱們能夠用智能思惟來構建動態的原數據體系,去作知識圖譜的這個素材之間的挖掘。並能夠用智能審覈去就是減輕審覈的壓力,提高整個流程的性能。微信

整個發展的路徑是從最開始都是靠人工,到如今咱們能夠用智能化的方式去融入整個過程中來提高整個的效率。數據結構

之前製做視頻的都是專業的機構來製做。像電視臺或者電影電視製做公司來製做。到如今每個老百姓均可以去來製做視頻。整個的趨勢就是從人工到智能,從小衆到大衆。架構

最後分發和消費的環節實際上是一個。從咱們之前很傳統的一個被動的接收,像最先看電視的被動接收模式,到如今咱們能夠去互動,能夠去按需求個性化的去選擇咱們所看到的內容。整個媒體生產的這個演進過程,實際上就是從一個很專業的門檻到如今一個普惠的變化。app

如今關於製做自己的話,其實我以爲是有兩方面的因素。第一個是手機的廠商,把視頻拍攝的這個技術可以更大更加深刻的在手機上應用起來。因此在手機上咱們能夠拍攝很高清的視頻。ide

另外一個是抖音快手這種短視頻的平臺,它提高了普通老百姓對於審美的追求,以及對於視頻質量的追求和視頻產量的要求。因此在整個過程中,製做這個環節愈來愈重要了。

咱們將視野放大到製做這個自己的過程。看一下媒體生產製做模式及它的變遷的過程。最先的時候,其實整個視頻製做是線性編輯的過程,也就是編輯須要一邊放一邊錄。

甚至最先的電影製做的階段是真的要去剪那個膠片的,要把膠片作一個正片,而後用剪子剪開,而後去用透明膠帶粘起來。到了八九十年代的時候,出現了一些專業化製做,視頻編輯能夠用一些軟件去作。到中間階段咱們能夠把製做分紅兩個模式了。第一個是現場製做的,而後還有一個是後期製做。

在上一階段的現場製做的過程當中,咱們通常會用這種如演播室或者是硬件導播臺,或者是轉播車來實時製做。到後期使用非線性編輯軟件來作。整個的生產製度模式是音頻、視頻和圖文,它們是分開來作的。有專門的字幕製做設備和機器來作。經過進一步的發展,如今這個階段,咱們增長了一些雲端製做和快速製做的一些方式。好比說咱們的現場製做,能夠在直播的過程當中實時的去疊加不少的東西,作不少的加工。而後在雲端把硬件導播臺換成雲導播臺,在雲端去實時作個性化的導播的切換。

在後期製做這個環節,咱們再也不只侷限於用非線性編輯軟件來作。咱們能夠在雲端使用雲剪輯,而後在手機端用短視頻app製做工具進行視頻製做。生產製做模式發生了很大的變化。生產製做模式是在原有的基礎上疊加了一些新的場景和模式。

整個雲計算和AI的發展,其實是補充了不少新的一些生產製度模式,可以讓內容的生產方式會更加的豐富。在整個過程中,AI在整個如今整個製做的模式的變遷過程當中,它起到的是一個輔助的做用。咱們但願將來AI可以達到智能創做一些有故事的視頻的階段。

這是咱們視頻雲在整個智能化製做中演進的路線。

咱們要知道智能化製做的需求,第一步要作的是什麼?

首先,咱們如今有不少的AI算法能力,這些能力能夠跟製做流程有聯繫的。好比說視覺相關的,像分鏡,人物的識別,視頻的分割,包括一些視頻畫面的主體的識別。還有聲音的語音識別,語音合成,顏色相關的,顏色的分析,還有調色等。還有一些圖片內容相關的。比方說智能的封面多是靜態的,也多是動態的。這些是咱們可以達到的。在製做這個領域可能會用到的一些原子的 AI 能力。咱們第一步是把這些原子的 AI 能力,經過 API 化讓你們能夠看到。

第二個階段是咱們作了一個智能的體驗館。由於 AI 的原子能力可能隱藏在後臺,咱們只放出 API 的話,可能沒有辦法給人很直觀的感受。

因此第二階段咱們作了一個體驗館,而後可以讓不少客戶去嘗試這樣的能力,看到這樣的效果。通過了第二階段以後,咱們發現一些客戶他會對其中的一些點會比較感興趣。由於 AI 的能力是不少的,可是針對不一樣的場景,可能客戶關注的點也是不同的。

咱們抽象了幾種場景、幾種應用,從內容的策劃到創做的包裝管理。客戶能夠根據在體驗館上提交一些本身的反饋。通過這個反饋咱們就能夠了解到客戶的需求。

因而咱們把它變成一個真正雲服務的過程。也就是第四個階段。由於把一個原子的 AI 能力,將它 API 化使咱們可以真正的提供一個雲服務。但中間的 gap 是巨大的。因此咱們作了一些體系的構建。咱們作了基礎源數據,提供了一些標籤庫、人物庫、鏡頭庫,而且從工程上去作了不少數據的服務體系,包括日誌和監控的體系。把這一套體系都作完,才能算是咱們作了一個可提供給客戶的服務。

到了第五個階段的話,咱們發現這些服務可以很穩定的提供出去是遠遠不夠的。客戶可能須要的不是人臉識別的一個結果,而是須要解決實際場景中的問題。這裏可能咱們就須要就進入到下一階段。我必需要把這些AI的服務跟場景去結合起來,可以爲生產製做自己發揮做用。這裏咱們抽象了一些場景,圖文合成視頻,模板工廠等,根據模板化來生產視頻,像直播剪輯、智能字幕、智能配音等。這些場景纔是客戶最終須要的。因此在第五階段,咱們把整個製做和AI作了一個結合,提供了一波場景化製做服務。

在整個過程當中,咱們會依賴像媒資系統,像剪輯系統,像版權系統,作一些任務的調度和策略的解析。而後把不一樣場景的服務去使用不一樣的策略去實現。因此,能夠看到咱們整個視頻雲在智能化的製做過程當中,它不是一個憑空想象的過程。AI 的能力,是須要跟場景結合起來,才能真正的爲客戶提供服務的

Part 2 雲端一體的架構設計

接下來是咱們智能製做雲端一體化架構設計。

在講這個架構設計以前,我想先給你們分享一下咱們以前所分析的一些媒體市場製做的核心組成和核心痛點。在媒體生產製做的過程中,咱們能夠把整個的製做過程抽象成四個階段。

第一個階段是創意的過程,這個過程其實是目前整個過程當中我認爲耗時最久的一個過程。

首先創意這個門檻就比較高,創意的過程是很是燒腦的。因此創意的過程當中,我須要去搜集,去編排不少的素材。那素材的收集和挑選就成了一個難題。若是是在作一個須要多人協同來完成的一項工做的時候,那會發現素材共享也很困難。而且原始的素材,這些素材須要在多人之間流轉,但可能它的體積會很大。文件大小的問題也是一個很突出的問題。

到了第三個階段是我素材已經大概找好了,但我是須要可以把它經過剪輯或者包裝的手段去實現我想要的一個效果。這個時候我發現工具用起來很是複雜。

舉個例子:好比說我週五的時候作了一個大概4分鐘的視頻,在創意過程大概花了我4個小時,而後收集素材又花了兩個小時。而後最後我在整個剪輯和包裝的過程,又花了我好幾個小時。因此我從週五中午就開始,最終那個視頻是在週六的凌晨兩點纔出來的。

因此工具的複雜,素材巨大傳輸的不便,還有包括協做的不便。這樣的場景可能適用於非我的製做,須要多人去協同完成。

因此咱們設計了一套這樣的架構。

咱們這套架構的一個核心的點是,它是包括了雲和端的部分,而且整個架構它不是一般你們理解的 SaaS 工具這樣的一個架構,它是雲+端,能夠分開也能夠合起來的一個很是開放的架構。

首先,中間這個部分是生產工具的部分,這個部分也是你們最容易想到的,由於咱們在進入雲剪輯以前,咱們都是在用一些客戶端的工具來作。

在整個過程當中,咱們的工具會抽象成三個組件。其中最核心的是這個故事版的組件,也就是時間線。其中還有兩個子組件,一個是播放器,由於要去在播放器上去預覽剪輯過程的效果,而且還有一些效果編輯的一些組件。這些組件會完成針對視頻音頻包括貼圖,包括字幕的一些各類效果編輯。

最核心的是個人預覽的渲染引擎。這個其實組成了生產工具的一個端側的組件。在這個端的話,實際上咱們最開始只作了外部端和移動端。並且最開始的時候,外部端和移動端它的時間線是沒有統一的。在這個過程中,最終是這樣一個架構。開始可能這個架構比較簡單,咱們只考慮了外部端,沒有考慮某外部端跟外部端的協同。如今咱們是一個多端統一的架構。

在整個在右側,是咱們的一個生產製度的服務端,至關於咱們把整個雲服務的體系劃分紅了三個組件。其中最核心的是時間線的處理中心。也就是當我拿到了一個時間軸,這個時間軸上有不少的軌道素材及效果。我須要對這個時間線進行處理。由於有可能我拿到了一個時間線,是一個個人客戶直接經過 API 請求提交過來的時間線,那麼這個時間線的參數可能會有不少的問題。

若是我簡單粗暴的把它拒絕掉的話,那麼整個體驗是比較差的。因此咱們在服務端作了不少的容錯校驗和補全,以及預測的機制,可以讓這個時間線呈現給客戶所預期須要的狀態。最終經過模板工廠下降整個門檻。渲染合成是最終的硬實力。咱們支持多層的視頻,而後多軌的混音,而且支持智能的引擎去調度到不一樣的底層,有特效引擎去用來作視頻的渲染。

能夠看到 API 的左側、API 的右側的部分(上圖中),分別是端和雲的部分。整個的設計是這兩部分能夠獨立來使用的。比方說我能夠只使用外部 sdk 的部分,我也能夠只使用雲端的部分,或者直接不使用外部 sdk,直接經過請求來去調用。

固然也能夠在一個 SaaS 化的工具上,把這兩個部分去融合。這個是咱們一個雲端可分可合的架構設計,它的設計初衷是,不是一個純 PaaS 或者是一個純 SaaS ,或者是一個只是端和雲的結構,它是一體化而且能夠拆開的一個結構。在這個結構的上面,是咱們基於結構包裝出來的一些服務和頁面。這部分是能夠由阿里雲來作,也能夠由咱們的客戶來作。最終上面的是咱們的一些場景。咱們能夠把這些技術抽象成一些場景,可以在這些場景上用到咱們這些技術。

最左邊的這一塊其實是咱們後來加上的,在開始咱們作初版的時候,是沒有 AI 部分的。把 AI 的這個部分加上來,是爲了可以智能的對時間線作一個編排。對時間線的編排,咱們把它抽象成了三個場景。

第一個場景是創做類的場景。第二個是加強類的場景。第三個是替換類的場景。在這三個場景當中,咱們能夠對素材去進行分析,拿到一個初步的時間線,而且將這個時間線跟人工的時間線再去作一個結合。生產一個最終的時間線。

因此能夠看到在整個智能製做中最核心的關鍵點是關於時間線的設計。由於時間線它描述了多個軌道,而後多個素材按照一個創意,去編排、作多種效果融合的這樣的一個產物。

因此後面咱們要講的是一個咱們對時間線的設計。

時間線的話,其實業界是沒有標準的,無論是專業的仍是雲端的,都是沒有標準的。

咱們來看一下專業的非編,像 3A(Apple/Avid/Adobe),每一家都有本身定義的時間線結構。這些專業非編它的設計都是多個軌道的設計。首先它們確定是音軌,視軌。

視軌是有多個軌道,而且它的素材和效果的設計都是各不相同的。固然也有傳統EDL的這種設計。這種設計的話相對來說是比較簡單的,它只有單軌,只定義的素材,可是它沒有定義效果。由於效果在不一樣廠家之間的描述是不同的。咱們基於這樣一個現狀,咱們作了雲加端能夠複用的設計。咱們是在時間線的核心四個要素,就是軌道、素材、效果和舞臺中間進行一個取捨和平衡。

首先來說特效這個東西是比較複雜的。在一些專業的設計當中,特效軌道是獨立出現的,頗有多是獨立出現的。在咱們這個設計當中,特效軌道不強求獨立出現,它能夠做爲視頻素材的一個屬性來出現。這樣是爲了下降雲端用戶和互聯網用戶的使用複雜度。

同時咱們會保留軌道素材的設計,而後軌道素材所指向的原始視頻僅僅是一個引用的關係。這樣的話是爲了增長應用性。不然的話整個時間線的設計會很是的臃腫。

另外,咱們爲了考慮後面的可擴展性,咱們對整個時間線作了一個多軌的設計。由於最開始,不少智能製做在設計的過程當中,都是單軌。但咱們作初版設計的時候,就考慮了一個多軌。由於多軌的設計能夠保證以後程序迭代的過程當中,不會由於打地基打的很差,而在原有基礎上作顛覆性的改造。

因此咱們在開始就把這個軌道按照素材類型去作了一個多軌的設計。最後,咱們對於輸出的畫布,也就是輸出的舞臺的設計,是一個自動化、個性化和自定義結合的設計。既能夠在不設置佈局舞臺的時候,可以根據原始素材的分辨率作自動的輸出,也能夠經過指定佈局的方式作自定義的佈局。

由於雲端的設計須要考慮不少,要考慮不少不一樣的場景需求。可能絕大部分場景是 4:三、16:9 或者 9:16 或者 3:4 這樣的需求。還有一些特殊的場景,它的分辨率多是須要自定義的。因此咱們整個的設計其實是在軌道效果舞臺和素材中間去進行了一個取捨和平衡。

(圖中)左邊的 timeline 的四個要素,是咱們整個設計的核心元素,也就是時間線抽象成四層,每一層都是逐層遞進的。可能一個 timeline 有多個軌道,每一個軌道有多個素材,每一個素材有多種效果。效果能夠由人編排,也能夠由機器編排。最後輸出到舞臺也好,畫布也好。

這是視頻最終輸出的一個形態,這四個要素是時間線設計的核心。

前面說到的時間線能夠你們能夠想象一下,它的總體是比較複雜的。若是我本身要組織這樣一個時間線的數據結構的話,那麼個人工做量會很是大。爲了下降時間線使用的門檻,而且同時保證專業性。咱們作了一個模板工廠的設計。

在模板工廠的設計當中,咱們會抽象出一些模板來。

這些模板是至關於把時間線完整的部分,或者是時間線一小部分進行抽象,而後用參數的方式去指定。在整個模板的設計過程當中,支持嵌套或者組合。好比說作的一個比較炫酷的視頻,須要素材的編排,包括效果的切換。或者添加些動圖或者字幕,那咱們能夠用對應的模板去作嵌套和組合式的設計。

這樣能夠最大的利用模板的成果轉化。這個模板工廠它核心解決的問題是:下降了使用時間線的門檻。同時還有一個最重要的,解決了製做創意的門檻。這兩個設計爲整個製做領域的專業度的提供保障。

模板工廠真正體如今包裝和使用上。能在保證專業性的同時下降門檻,把整個製做設計普惠到每個想要製做視頻的民衆身上。這兩個門檻是咱們認爲在整個製做過程當中最核心的門檻。

基於前面的一個結果,這是咱們設計的一個智能媒體生產數據的數據流。

由於前面的架構比較乾澀,是一個純技術架構。那最終數據是怎麼流轉,怎麼能從最原始的素材到最後合成出我想要的視頻呢?

它的流程是這樣的。個人左邊是素材,個人素材和我想要製做的視頻是一脈相承的。原始素材是有不少的類型的,可能會有音視圖文,有一些副文本,甚至會有html 代碼片斷。這些都是個人素材庫。

到了中間的過程,是最核心的智能生產製做鏈路。首先個人素材會通過一系列的AI處理,拿到結構化的信息。

在拿到結構化的信息以前,會先對素材進行處理。比方說會先去分析這個音視頻的流信息,包括一些尺寸信息格式信息,這些信息會輔助中間智能生產過程當中的輸入。以後拿到這個預處理的信息以後,會對整個智能化的這個過程去作一個分析。這裏的分析是多維度的。輸出的多是視覺層面上跟時間軸相關的,或者是跟時間區間相關的,也有多是語音方面的,還有多是一些顏色的配比,仍是實時過程當中摳像出來的像素集。而後拿到這些通過處理的數據以後,我就能夠去跟工具結合製做了。

固然這些工具並非每種工具都會用到每種能力。可是這些能力均可以做爲這些工具的輸入。工具的也是有多種的。包括移動端及web端、經過模板化批量化來生產的,以及經過AI的方式來輔助的。最終咱們會有一系列生產效果。

圖中智能生產製做右邊這一部分,就是在製做過程當中最經常使用的效果的抽象概念。

比方說咱們會用到多層的圖像的疊加,這個圖像多是視頻,有多是圖片,會用到多軌的混音調音,用到圖文在同一個軌道上的混編,會把素材的效果去作一個濾鏡或者轉場,會對一些直播流作前景人物或者主體的實時的摳像,也能夠作智能的字幕。還能夠作智能的集錦。也就說經過對視頻的分析去提取出這個視頻的精彩片斷作一個集錦。

固然還有一些綜合的製做過程,就是須要人工和智能去結合,來完成整個製做過程。

最終輸出的話,實際上咱們也把它抽象成三類。

  • 第一類是用於分發播放的成片。成片咱們能夠把它總結爲創做類,集錦就是創做類。
  • 第二類是加強類:視頻本來沒有字幕,經過語音識別加上字幕,這是屬於加強類的。
  • 第三類是替換類:主播直播時的背景不太美觀,把背景替換成較吸引人的背景。

這個是輸出成片的3種類型,固然還能夠輸出的是素材,輸出的是素材時候,輸出的內容是能夠用於二次製做的。

這些素材實際上是有的時候是比成片更爲寶貴的。由於它是能夠反覆利用的。咱們這套系統也可以輸出素材。

最後咱們在技術上並非跟專業非編對立的,咱們和專業非編是技術上合做的關係。

咱們的模式至關因而互聯網方式的新媒體剪輯。咱們須要專業場合的時候,能夠在雲端作一個粗剪,而後在線下去作一個精編。這樣能夠把時間線去作一個交換,可以把總體的效果達到最優。

因此說咱們在整個媒體內容消費過程當中,獲得一些反饋的體驗,又會回饋到AI的體系。在數據上成一個閉環。推進這些算法繼續迭代。同時的話咱們生產的內容也會回到媒資庫。回到媒資庫以後,這些內容同時也會做爲下一次視頻製做的一個輸入。你們能夠看到阿里雲在整個智能媒體生產製做中,設計的中心理念,是以生產製做爲核心、AI 輔助。

Part 3 生產製做爲核心、AI 輔助

可是咱們爲何還須要 AI 呢?爲何還那麼重視 AI 呢?這張圖比較簡單,可是,是一個咱們實際上在思考這個用 AI 來輔助咱們作生產的一個思路。

當最開始咱們最原始的階段是全部的東西都是由人來去編輯的,時間線的編排也是明確的,徹底由人來主導。可是有一些場景是人比較費時間來主導或者不那麼容易主導的。

舉個例子,比方說幼兒園監控視頻。家長說我特別想看到咱們家小孩在幼兒園的表現,那從監控視頻一幀一幀找本身小孩是很是費勁的。海量的視頻要去處理的時候,會發現經過人已經沒有辦法去處理識別了,因此產量會很低。

當咱們從人工編排方式要進化到大規模化的製做方式時,以及須要大幅度的提高自我效率的時候,咱們勢必要經過雲計算和 AI 相結合的方式來作這件事情。

在整個過程中,咱們是要使用 AI 的能力。我以爲這個也是AI最大的魅力和價值,就是它能跟雲計算很好的結合,可以爲規模化製做以及海量素材分析提供幫助,提高媒體制做的一個效率。

接下來我會從三個實際的例子,來跟你們分享一下 AI 技術跟生產製做流程的一個融合。

這是一個咱們一個在雲上轉播的一個例子。在這個例子當中,咱們能夠看到傳統的轉播可能在現場有不少機位,有不少鏡頭,拍下來不少的視頻素材。

可是咱們在電視上看到的就是那幾個頻道,可能不少的視頻素材被浪費掉了。咱們在電視臺看到的,是現場導播給咱們生成的這樣的畫面。但實際上還有很是多的視頻素材沒有利用上。

所以,咱們作了一個雲上轉播的一個架構。技術邏輯是這樣的,咱們首先仍是會把視頻的直播流,經過直播中心保存下來。而後咱們用雲端的導播建立多個導播的實例,在每個實例可使用不一樣的視角去作我想要的導播的場景。

雲轉播由於能夠在互聯網上分發,因此它對於原始直播流和素材的利用率是很是高的。咱們也能夠把這個視頻收下來,進入這個直播的錄製的過程。對這個實時的直播流用AI進行快速的處理。

在冬奧會轉播以前,青奧會的演練有一個例子。咱們當時是作了三種體育賽事的演練。針對這三個賽事,咱們對運動員的運動軌跡進行跟蹤,作雲端的分析。而後把每個運動員每一段運動當中精彩鏡頭經過AI處理的方式,利用雲端剪輯的方式快速的生成素材,而且把素材又轉推成視頻流,再回轉到雲導播的輸入,這至關因而對單邊的直播流的收入。

另外一方面是我經過實時技術去自動生成了這種回放集錦。而且在鏡頭之間還能夠加一些效果。那這個時候其實若是不考慮徹底實時性跟硬件導播臺的差異的話,其實整個生產製做的模式已經跟傳統的模式很是接近了。

咱們的魅力就在於說,咱們能夠把很是多的直播流的利用起來。尤爲是在一些賽事上,有些國家的運動員可能並非前三名,可能這個播放鏡頭沒有給到他們太多。可是這個國家的民衆會很是關心本身國家的運動員。那這個時候咱們能夠經過這樣的技術去讓每一家機構都是一個導演,而後都可以去作整個轉播過程,從直播流中導播本身想導播的畫面。因此雲直播的流程是把AI的能力和實時製做及離線或後期製做進行鏈接,同時可以大規模的利用上咱們的系統,而且可以讓全部的直播流都能發揮它的價值。

這是咱們在雲直播技術上的一個應用。

這個例子也是用的很是多的。咱們在作一個片子的時候,咱們不可能每一個節目都是用徹底不同的創意。當我須要想複製個人創意的時候,可是我又想我複製的不那麼的生硬的時候,我會很是須要這種的場景,就是一個成片模板化的製做,就是個人素材庫裏的東西是不少的。

前面也有講到咱們的素材庫,多是直播流,也有多是離線的視頻文件,還有多是一些純音頻,多是人聲,多是背景音樂,而後有多是一些字幕。這些字幕多是外掛字幕也有多是一些橫幅文字。而後還有多是一些各類各樣的圖片,包括一些文本信息。甚至是一個代碼段。例如 html 的代碼段,或者是我代碼當中的 canvas 的一個結構體。這些其實都是咱們用於製做的素材。經過這些素材,咱們怎麼才能把這個節目製做出來呢?

咱們可能還須要一個模板庫,這個模板庫是一個庫的概念,咱們能夠在模板庫利用設計師生態圈,設計師會在裏面設計出不少的模板。可是咱們其實並不須要用 AI 的方式去對整個的模板化的製做去進行一個進階。但進階在哪裏呢?也就是說咱們並不想原封不動的套用這些模板而不作一點變化。

比方說如今設計師設計了一個泡泡彈來彈去的背景,須要跟個人前景圖片進行一個融合。這個泡泡他設計的時候,設計師只會設計配色和一些運動軌跡的一個變化。

可是我實際在作合成的時候,若是我每一張圖片都用這個背景去合成的時候,可能會顯得這個背景跟個人圖片它是不協調的。

那我怎麼才能去用 AI 的手段去來作這樣一個改進呢?

就咱們可能會去分析這個圖片的色彩,而且去分析整個圖片的調性和這個模板的運動軌跡的變化。經過分析的話,會把當前的素材,它所依賴的特徵跟這個模板的參數進行解析的分割。而後可以把整個參數級的變化跟我素材的特徵去進行結合。這樣的話我就能夠把基礎的模板裂變成不少個性化的模板。這個個性化的模板能夠相對應於每個不一樣的素材。經過這個個性化的模板,再結合素材集。那前面的左邊是說個人完整的素材集。可能個人素材集是一個海量的,我到底要用什麼樣的素材來作個人這個視頻呢?那這裏可能有一個挑選的過程。

挑選實際上是包括兩部分,一部分是搜索,一部分是截取。搜索的過程是AI可以深度參與的一個過程。可能會根據個人場景去定製,AI 分析多是基於內容的,也有多是基於關鍵詞的,甚至是基於知識圖譜的。而後搜索以後我究竟是截取這個視頻中的哪一段。這個是根據個人主題和視頻內容選擇的。若是我是作一我的物相關的這個視頻,那我可能獲取的素材是跟人物相關的這樣的片斷。若是我想要的是一個好比說動做類的,像賽事類的,我要作一個集錦,我可能須要關注的片斷是一些跟運動畫面,或者是跟一些鏡頭相關的一些東西。

咱們經過兩個部分的結合,就是從海量的素材庫去搜索到每次製做須要的這個素材集,而且用AI的方式去把一個模板可以裂變成個性化的模板。以後,咱們把這個模板和素材集而後去結合。這個就是咱們的原材料。最終咱們經過這樣一個結合去構建時間線。

時間線是最終合成的一個依據。整個時間線經過合成和渲染,就可以渲染出視頻或者一些泛媒體的影像.這個是咱們就是在成片模板化製做的一個例子。它的核心實際上就是說個人每個部分都是能夠用 AI 的方式去取代的。運用 AI 的方式不僅是用於到初步篩選素材,它還能夠深度參與到整個製做過程中。

第三個就是剛纔前面說到的,咱們有時候並非只是爲了製做成片。而個人目標是製做一些素材。這些素材自己又是能夠被反覆使用。由於製做素材和製做成片有很大的不一樣。

就拿製做成片來講,我會用到很是多各類各樣的效果,來保證我成片在視覺上的衝擊力。可是我作素材的時候,我可能儘可能的保證一個 clean 的結果。我可能並不但願加過多的效果的修飾。個人核心在於這個視頻當中的哪些素材、哪些片斷是能被重複使用的。

而且,我可能會根據我重複使用的一些原則和基準來去作個人挑選策略。個人素材源仍是兩類,大概分紅兩類,直播流和視頻。而後通過視頻智能生產的一個預處理,能夠看到這個關注點跟原來成片製做是徹底不一樣的。

我原來成片製做可能會關注各類效果,各類編排,各類多軌的一個疊加。可是我在作素材的時候,我關注的是這個視頻自己鏡頭,這是一個重要的因素,我須要對鏡頭去進行很是嚴格的分析。這個鏡頭語言最核心的兩個要素,就是景別和拍攝方式。

景別分紅遠景、全景、中景、近景和特寫。每一種類型的鏡頭它的用法也是不同的。我可能會經過AI的分析去識別出這個鏡頭的級別,而且把這個鏡頭的級別會對畫面進行一個標註。

這個標註不光是標註在時間軸上,還要標註在視頻畫面上。另一個很是重要的維度就是拍攝方式。

由於咱們在作不一樣類型視頻的時候,可能關注的拍攝方式不同。若是咱們在作一個故事類節目的時候,我會很是關注拍攝方式,就是鏡頭移動順序不能錯亂。把人的關注點按照順序的方式去銜接起來,而不是整個畫面去滿世界的跳。因此咱們須要去研究拍攝方式,就是用固定和運動的拍攝方式去分析鏡頭語言。而後可以把不一樣片斷的拍攝方式可以提取出來。可是在有些場景,咱們偏偏須要把這些拍攝方式去進行一個綜合。

好比咱們在作一個很是炫酷的音樂或者跳舞節目的集錦的時候,我就要故意製造這種錯亂的拍攝視角,從而產生一個炫酷的效果。

因此咱們須要根據場景結合來分析鏡頭語言,把這個鏡頭可以識別好。而後根據不一樣的景別和拍攝方式把把標籤打好,這樣的話纔可以爲後面再次的節目製做和視頻製做作準備。

同時,咱們仍然須要一個基礎的庫。比方咱們須要數據庫,須要鏡頭的標籤庫,還有鏡頭自己的視頻庫。以及由於人物創做是整個節目製做的很是關鍵的點。

因此咱們還會構建一我的物庫。基於這些基礎庫的構建和生產預處理,以及鏡頭的分析。咱們就能作素材智能時間線的一個處理。而後咱們通過素材的分析以後,咱們會拿到素材的級別結果,拿到拍攝方式的結果,拿到內容特徵提取的分析的結果。拿到這個東西以後,咱們能夠開始構建時間線。

在時間線的構建當中,由於咱們可能在在中間這個階段拿到的結果是很是零碎的。在這個零碎結果中,最終到底哪些畫面纔是咱們可以複用的素材呢?那這個時候其實是須要結合場景去定義一些詞庫,或者一些特徵庫的。

基於這些特徵庫,咱們纔可以生成須要的素材時間線的結構。這個素材時間線的結構拿到以後就能夠去作素材真正的拆分了。有可能咱們重新聞聯播的一期完整節目,可以拿到一些有價值的片斷。這些片斷在傳統行業被叫作所謂的通稿,或者是 clean 素材的概念。這個過程實際上就是咱們整個智能製做相比於生產素材的一個不一樣。

因此咱們舉了三個例子,AI 能力是如何在不一樣的場景去跟咱們的製做過程結合的。

最後總結一下咱們的視頻雲智能媒體生產製做的技術層次。在咱們的技術層次的設計當中,(圖中)右邊最下面是最核心的,就雲製做的能力。

這個雲製做的能力,其實是一個硬通貨和核心能力。像剪切拼接多軌疊加多軌混音,圖文混編多幀率,而後多碼率的一個自適應融合,還有字幕的能力,還有動圖的能力,效果渲染濾鏡轉場等,這些都屬於雲製做的部分。

這是整個智能製做的一個最核心的部分,若是沒有這些東西的話,無論是AI也好,包裝也好,其實都是沒有根基的。

在製做能力上面是咱們設計的包裝能力,包裝能力是把製做能力規模化的一個技術層次。第一個看點是規模化,經過包裝,能夠把一些東西提煉出來,抽象出來,而不是每一次都零從開始製做。這是包裝能力的第一個要點。包裝能力第二個點是它能夠用 AI 的方式多樣化。

比方說我有一些模板,經過 AI 包裝,能夠把一個原始的素材裂變成多種多樣的效果。還有就是組件化。當我把包裝能力作成工具,或者作成sdk的話,這個是組件化的效果,這也是咱們可以快速化和批量化的生成視頻的一個能力。至關於製做專一在覈心,而包裝是專一在應用。

圖中左邊能夠看到是 AI 的部分。

AI 在咱們整個的體系當中,它是一個用於作智能化和規模化的一個抓手。就是它會深刻的融合,在雲製做和雲包裝的能力的每個模塊當中。

最上面這一層,是咱們整個技術體系的生態部分,就是咱們要作多端的融合,而且要搞定最後一千米的問題。

在這個過程中,咱們把這些能力有很好的一個出口作一個生態。而後咱們對這個智能化的研究路徑也有一些展望。

最開始咱們批量化作視頻,可能會用模板化的生產,或者用AI輔助製做和基於簡單規則的就是內容生成。

這些是前三點,是咱們已經作到的。第四點是還咱們尚未作到的。是基於場景理解模板的推薦。如今的模板仍是人去挑的。以及基於視頻畫面分析的 AI 的濾鏡,如今不管是模板仍是濾鏡,其實都是由咱們本身來指定的。

咱們但願有一天可以用 AI 來作到這些事情。個人一個終極設想,但願將來 AI 可以真正獨立去作創做,去生成有故事的視頻。

最後是咱們對智能製做這個體系將來的一個見解。

咱們認爲將來在製做這個體系,它必定是兩個方面都並重的。

首先是咱們會愈來愈專業。從咱們對於視頻的需求來看到,最開始互聯網上作視頻是一個單軌制做,如今可能也是多軌、多種效果,多個素材,多種類型的一個製做。

整個的視頻製做的鏈路會愈來愈專業。可是在專業的同時,咱們以爲整個視頻製做的參與者是愈來愈多了,這是一個普惠的過程,專業和普惠是一對看上去衝突,但又不矛盾的點。

經過咱們的核心設計,以及打地基過程,讓整個的行業包括AI的能力進一步提高,使將來專業化製做成爲可能。

普惠是咱們經過各類各樣的工具,經過工具化的生產,可以下降創意和使用的門檻,可以讓每個人進入到製做過程當中去作本身想要的視頻。

這個是咱們總體對這個將來的見解。那具體到點的話,咱們認爲,首先第一個當咱們端跟雲協同製做的時候,會有一個所見即所得,可是渲染效果不統一的問題。咱們但願將來的話,端上的製做和雲端的製做,它的效果是一致的。這是將來的一個趨勢。這裏可能會用到雲渲染的技術。如今的實時製做和後期製做相對是割裂的。咱們但願將來這兩個部分是可以徹底融合的。

第三塊咱們認爲隨着屏幕的增大和 5G 的到來,超高清的製做已經已經在一些場景去嘗試,同時專業製做也是一個方向。

最後第四個一個普惠的過程,後面的進化過程多是全民創做。視頻的製做技術已經再也不是所謂的高端的技術,而是一個普惠全民的技術。可以讓每個人都能製做本身想要的視頻。最後,我和不少專業製做領域的同行聊,他們也是但願 AI 可以真正的進化爲可以創做有故事的視頻這樣一個階段。

今天的分享就到這了。謝謝你們。

若是你也對智能媒體生產羣感興趣,歡迎加入微信交流羣:點擊掃碼

阿里雲視頻雲技術公衆號分享視頻雲行業和技術趨勢,打造「新內容」、「新交互」。

相關文章
相關標籤/搜索