美攝智能視頻生產平臺

時間 2021-05-27

標籤前端 ios web 小程序後端瀏覽器服務器網絡架構 ide 欄目 iOS 简体版

原文原文鏈接

美攝科技爲企業提供視頻編輯SDK、短視頻SDK服務,支持開發者快速集成包括視頻錄製/視頻編輯/視頻美顏/人臉識別/動態貼紙/特效濾鏡,支持iOS/Android視頻編輯SDK功能。今天咱們有請到美攝科技的李磊老師和咱們分享一些思考一些實踐以及現有的方案。

文 / 李磊前端

整理 / LiveVideoStackios

你們下午好！很是開心有機會和你們分享，感謝你們來參加此次會議。我今天演講的主題是美攝智能視頻生產平臺。首先來講一下爲何咱們要選擇講這個平臺呢？由於在這幾年視頻的發展很是的迅猛，從之前的圖文交流到如今的以視頻爲主的信息交流，視頻化逐漸成爲你們的一種信息交流的方式。不管你刷抖音仍是快手，拍vlog之類的，你們都習慣於以視頻的方式和你的朋友家人作一次分享。可是視頻製做是有必定的門檻，一些普通的用戶就沒那麼方便，不像些幾個文字發幾張照片就能表達出去。因此這幾年隨着AI技術和傳統技術的結合，咱們也在思考這樣一個問題，如何下降視頻製做的門檻，如何讓咱們更多用戶和企業用戶更便捷去產生大批量的視頻。因此咱們搭建了這樣一個智能視頻生產的平臺。今天想把咱們的一些思考一些實踐以及現有的方案給你們作一下分享。web

在講解以前先給你們介紹一下北京美攝網絡科技有限公司。北京美攝網絡科技有限公司是脫胎於新奧特（北京）視頻技術有限公司的。新奧特在整個廣電行業裏是領軍企業，它曾經承擔過奧運會、世博會和歷屆大運會的技術支持工做。好比它的字幕機、虛擬演播室、非線性編輯系統和敦煌高級後期合成系統等等，都是在央視在北京電視臺等等各大電視臺都有非產廣的應用。而北京美攝網絡科技有限公司的核心團隊來源於新奧特公司，它的累積經驗在新片領域有20多年，因此咱們也有核心的技術能力。如咱們的敦煌視覺效果合成系統獲得了國家科學技術進步一等獎。咱們也承擔了一些國家科技的研發工做。由於咱們之前是在廣電領域，偏向圖形工做站以及PC端的視音頻的解決方案。但是隨着社會的發展，咱們想把咱們這方面專業的經驗和技術下移到移動端去，讓這些精彩的技術可以服務於普通羣衆。從14年開始，咱們重新奧特獨立出來開始作移動端的技術遷移，在一開始的時候作了一些To C的產品。在17年的時候，把咱們底層的技術包裝出來造成SDK的方式，逐漸轉向To B的企業，爲互娛的企業或者傳統的新品企業、新媒體企業爲它們提供底層的視音頻技術支持，幫助它們搭建業務平臺。小程序

01美攝科技產品矩陣

這是咱們目前北京美攝科技的產品矩陣，從最下面開始其實咱們整個產品矩陣的基石是原有的美攝SDK，美攝SDK是跨平臺的SDK，不屬於移動端、雲端、PC端以及硬件均可以。移動端主要就是ios，安卓均可以。雲端主要指的是外部端的部署，PC端是Windows和Mac上也能夠部署。硬件咱們能夠作到HAL層也能夠作到dsp層。根據客戶的需求咱們作了一些定製化的要求，SDK來說如今主要分兩大部分，一部分是傳統的視音頻解決方案，也是傳統的視音頻能力，另外一部分咱們如今AI智能化的技術，把它二者結合，搭建出了一個美攝智能視頻生產平臺，素材創做平臺。後端

這兩個平臺有什麼區別？智能視頻生產平臺，主要解決的是視頻內容的生產問題，素材創做平臺解決的是好比特效包字幕包貼紙包這種素材的自定義風格化的問題。這兩個平臺有個統一的用戶中心，用戶登陸之後經過咱們的智能生產平臺來製做你的視頻內容，而後發佈到咱們的平臺上去，也能夠用到您帳戶下的風格化的素材包兩種互相結合來提升您視頻內容的精彩程度。像咱們傳統的視音頻的原子能力，我以爲咱們SDK的一個重大特色在於可擴展性，好比說咱們爲了知足不一樣用戶，由於是To B的形式，不一樣企業對於個性化要求是比較高的，爲了知足這種個性化的需求，咱們提供了customer video fx、customer audio fx自定義化的接口，提供視音頻的插件，也提供story ball的特技，腳本的方式作這些特效的拓展。同時像剛纔提到的customer video fx這種方式把咱們的渲染提供一個接口暴露出去，讓外界作本身的特效渲染，把第三方的客戶本身的特效加入到咱們的SDK渲染流程裏來，以達到一種特效的拓展。像故事版特技的話它實際上是一種caimai腳本語言，也固然有必定的規則，也比較簡單，客戶能夠根據規則本身寫caimai腳本，把這個腳本經過必定的接口設置給SDK之後，由SDK本身解析這些腳本語言，而後把它翻譯成SDK內部的原子特技的結構數。而後SDK根據特技結構作渲染。因此，自定義的方面SDK仍是作的比較出衆的，像咱們最新的腳本語言支持這樣的一些表達式的寫法，讓整個的特技效果更加絢爛，好比一個參數能夠寫成sin這樣的表達式。瀏覽器

從兩個平臺以上咱們就能夠出來四端的服務，移動端咱們有本身的智能校色,智能輪廓線，智能輪廓線也是爲一加手機定製的功能，一加手機熄屏是會根據屏保熄屏時的圖片會智能識別輪廓線，出來一個簡筆畫的效果做爲您熄屏的屏保，會讓人感受比較獨樹一幟。也是一加的定製化需求，像咱們的智能校色，它會識別圖像的場景，好比什麼樣的場景什麼樣的風格內容，而後自動化調整校色方面的參數，像清晰度，高光，暗影等十幾個參數，作智能化的調整，幫助你來提升整個圖片的審美，人爲的提高視覺效果。服務器

在雲端方面咱們的最大產品是雲剪輯，雲剪輯是服務器端和前端網頁的結合產品，咱們的雲剪輯特色是用了web技術，在網頁端實時的渲染，而不是經過網頁和服務端不斷地通訊，對網絡的依賴程度大大的下降，直接在雲端實時的渲染，去年主要產品也是今年主要火的一個產品需求，咱們爲國家電網作了虛擬主播，無論是2.5D的3D的仍是仿真人的都有相應的產品提供，PC端至關於咱們更專業一點的工具，由於可能像一些b站的up主，須要編輯一些更專業一點的視頻，他可能須要在電腦上進行操做，因此咱們在PC端也有這樣的特效製做工具以及專業的視頻編輯工具來提供給各個企業各個客戶。網絡

在硬件方面，咱們也是應客戶的需求，咱們把美顏和咱們的濾鏡作到了HAL層和dsp層，直接在硬件上跑，效率會好一點，這也是一些客戶的定製化開發需求。架構

02智能視頻生產平臺簡介

咱們的美攝智能生產平臺，剛纔提到主要是解決視頻內容的生產問題，其實按功能模塊來說的話，大概分爲四個模塊：智能的拍攝，智能的剪輯，智能的包裝，智能的模板。而這些不一樣的模塊他們的關鍵點在於智能標籤，智能標籤的識別做爲整個智能視頻生產平臺的基石。像整個系統裏面，咱們一直在嘗試用一些前沿的技術相結合，好比8K的視頻編輯，都會去作一些嘗試並落地。像智能剪輯，智能剪輯主要是對導入的視頻不須要人工的干預，是由AI本身識別視頻的內容，而後根據咱們的設計團隊，在這以前不斷地作了不少實驗，咱們用AI模擬設計師的思惟方式，用他們的思惟方式產生包裝的體驗包裝的方案，根據AI識別選出相應的方案，來智能地裁剪出精彩片斷作一些特效包裝，和普通的識別了一種物體，貓狗之類的寵物相比，按照對象作一個視頻的聚類是有區別的，包裝的效果也是不太同樣的。ide

03美攝智能視頻生產平臺邏輯結構

這個是咱們美攝智能視頻生產平臺的邏輯結構，整個平臺來說是一個前端和後端結合的解決方案，因此後端能夠按照客戶的需求部署在公有云或者說私有云上。在PaaS層，咱們提供了主要基於SDK自己原子的能力以及AI的原子的能力，好比人臉點位檢測，AI智能校色，AI智能標籤做爲底層的技術，而後咱們在SaaS層服務於企業的服務平臺，SaaS層主要後端的內容管理平臺，這個平臺的特色在於結構化會很強，並且每一個客戶需求不太同樣，因此定製型需求比較高，企業客戶能夠根據本身的需求選擇不一樣的模塊來知足您的業務發展的需求，在後端之前咱們要配合前端的工具，好比說移動端，PC端的外部端提供這三端的工具結合服務器的能力不斷地輸出咱們的視頻內容，二者結合的方式來提供完成這個智能視頻生產的構建。咱們的業務場景比較多，能夠在無論是專業的視頻或者是短視頻或者是新媒體這些視頻，流程上包括到採集到編輯到產品的包裝到後臺項目的管理到用戶的管理內容的管理到最後的發佈和運營，整個平臺是能夠服務於不一樣的場景的。

你們能夠看一下剪輯包裝的示意流程。對導入的視頻圖像作一些AI的智能識別，知道不一樣的風格地點對象，包括偏白偏黑不太好效果的屏蔽，這些都會去作一些識別，而後根據最重要的一點去根據設計師近千次的包裝理念，有設計團隊對一樣的視頻包裝效果進行了近千次的實驗，而後與咱們的產品經過提煉每一個人不一樣的包裝手法，好比每一個設計師的喜愛，他對視頻的認知，他認爲這些視頻哪些屬於精彩片斷，片斷之間應該是怎麼樣的組合方式，人和風景的結合，這些片斷是怎麼樣的排列，之間加一些怎麼樣的轉場特效，設計師對視頻的理解內容是不同的，因此咱們先讓咱們的設計團隊作了大量的試驗以後，由咱們產品團隊作了這樣方案關鍵點的提取，造成了不少的方案，最終出現了AI智能包裝剪輯的效果。

04內容生產

4.1 內容生產——旅拍Vlog智能剪輯

智能包裝機剪輯咱們主要分爲三個內容，第一個屬於生活旅行的智能剪輯包裝，你們都喜歡出去旅遊出去開車什麼的。這個視頻演示的是咱們一個普通同事有一年團建時候出去玩，很隨便的拍了一些視頻，其實大多數的用戶也是這樣的需求，出去玩出去旅遊，可能就當是爲所欲爲的當時以爲好的照片視頻拍了不少，回來以後可能有這樣的需求，把它分享給朋友，但是那麼多東西不能一個個分享，因而你就想取之間的一些精彩片斷，把它組合包裝一下，但是你在作的時候以爲本身技術不太好，你應該怎麼去剪切去加什麼特效比較好，因此咱們對這種大類的生活場景作一些智能剪輯的包裝。

首先咱們對你的視頻進行智能的AI識別，識別了你的風格化有哪些場景，從不一樣的維度構建識別內容的體系之後，咱們對視頻片斷進行裁剪，通過咱們的評分系統挑選出咱們這個視頻的精彩片斷，精彩片斷會根據你視頻的導入內容，挑選出不一樣的包裝方案，這些包裝方案根據咱們設計團隊的同窗他的思惟方式，不是固定的，挑選不一樣方案出來不一樣效果，根據評分系統模擬當時設計師的思惟方式，臨時組合出來的成品。可能你選的一樣的方案，導入視頻內容不同，出來的結合程度是不同的，最後咱們也會經過識別內容，在字幕庫內添加一些符合它場景的字母做爲包裝元素到視頻裏面，包括濾鏡，音樂節奏的自動打點，都會一鍵式智能AI包裝出來。

這樣用戶作起來很是簡單，只須要導入視頻，通過咱們的包裝和分析直接出片，其餘的不用管。固然咱們特別好的地方在於，在結構化的在內存中能夠播放，那時候尚未生產MP4這種格式，你是能夠對它進行二級編輯的，好比你以爲哪裏很差，你以爲哪一個濾鏡不喜歡，更喜歡別的濾鏡，字幕須要更改均可以進行二次的編輯，輸出一個成片的東西做爲你的分享的內容。圖上有兩個二維碼，你們感興趣能夠掃一下，有AI智能剪輯的demo。

4.2 內容生產——會議智能剪輯

還有相似會議類的剪輯，這個可能更好的服務於傳統的企業好比說中央電視臺，人民網，國家電網這樣的一些傳統的企業，主要是像兩會這樣的大型會議，可能會作一些智能剪輯，由於有些報道前端記者會拍攝不少的視頻，出這樣的一個報導，咱們會幫助他們作一些場景人物的檢測，和剛纔的旅拍是同樣的，須要咱們對兩會這樣的大型會議做出解決方案，由咱們識別到之後根據解決方案，由它智能的輸出模塊化的包裝，達到會議智能剪輯的效果。

4.3 內容生產——遊戲智能剪輯

還有個智能剪輯也是在於客戶的定製化需求，是咱們對遊戲的智能剪輯，目前是王者榮耀這個比較流行的遊戲作了一個遊戲的智能剪輯，就好比有些遊戲玩家在直播或者遊戲錄屏裏面須要作一些精彩片斷的回顧，特別是一些遊戲手機廠商，也有這樣的產品定製化需求，開發了這樣一個遊戲。以王者榮耀這樣一個遊戲檢測來說，咱們會根據右下角的主角的特技識別他是怎麼樣的主角，經過它上面的一些擊殺動做，咱們來區分不一樣的片斷，組合這些精彩片斷，最後加上咱們的包裝效果，好比說音樂的卡點，一些字幕濾鏡貼紙，這樣的一些包裝元素，而後對它作了一些包裝化的效果做爲一個精彩集合，你們能夠看一下效果。

像這樣一個靜幀的效果，一個校色的效果，這些都是咱們後期剪輯出來的一些包裝元素。這些火光和光輪的效果都是一鍵式的智能AI包裝出來的，沒有經過任何的人工干預，這就是咱們遊戲智能剪輯的包裝效果的演示。

4.4 內容生產——兩會活動

內容生產還能夠像這樣迎合兩會活動的一些特殊的場景，突發性的新聞事件，去作一些極速的活動好比此次兩會，這也是解放軍強軍網的一個定製化的需求，兩會前忽然找到咱們，說想作這樣的一個活動，咱們主要是SDK這樣一個靈活的架構，很是迅速的完成了兩會的活動，他的活動邀請了楊利偉去拍攝這樣一個視頻，識別他的語音和當時用戶輸入的文字，產生了和楊利偉對話的效果，最後用戶能夠上傳他的一張照片，識別到一我的臉，咱們把人臉貼到右邊航天員的頭像裏面去，就有一種換臉的意思。當時強軍網得到了好評。

4.5 內容生產——智能標籤

前面說到智能內容生產平臺的關鍵點在於咱們的智能標籤，智能標籤分了四個大類，有環境的，物體的，場景的，人物的等4個大類35個分類以及2000多個小標籤。整個構成了AI智能剪輯標籤的系統。咱們會去經過識別視頻的內容，從視頻的視覺、聽覺以及像天然語義這樣不一樣的方面和維度，總結出這樣的標籤，至關因而給SDK附上了一雙眼睛，能讓它識別出咱們用戶如今導入的東西，而後結合右邊的SDK和兩個基石的基礎上，咱們就能搭建咱們的智能視頻生產平臺，二者互補，一個生產內容，一個爲內容提供包裝元素，服務於不一樣的業務場景。

4.6 內容生產——智能模板

智能模板和智能剪輯有一點區別在於，智能剪輯是一個徹底智能化的場景，不須要人工干預，像智能模板更靈活一點，它能夠在模板以前由用戶先去根據識別內容和識別標籤和模板標籤作標籤匹配，作一個模板的推薦，用戶在應用模板以前能夠選擇替換模板裏的哪些視頻或者素材這和智能剪輯的區別在於靈活度會更好，在應用以前就主動由用戶的喜愛進行操做。

4.7 內容生產——智能拆條

智能拆條也主要應用於傳統的電視臺企業，根據他們的需求，作一些初檢。咱們如今作的智能拆條可以應用的領域在於新聞類的拆條，像後期的話如今的會議報道或者體育類還有晚會類這些是咱們目前正在研究的方向。目前落地方案就是新聞類的智能拆條，像圖上就是把智能拆條和雲剪相結合，會根據原始素材的一些，經過畫面轉場人臉的對比，不一樣維度在時間上粗略的切割，再根據剛纔識別到的元素去作一個合併，幫助咱們的記者採編人員作一個粗略的裁剪，會根據識別到的內容和字幕作一個比對，出一個初級的片。

4.8 內容生產——AI虛擬主播

AI虛擬主播也是這幾年比較火的應用，像咱們如今能夠作到的是，卡通類的、2.5D、3D、仿真人的虛擬主播。如今實際的落地爲國家電網作了方案。圖片上是2.5D虛擬主播的照片，經過AI學習驅動人物的嘴部，結合你輸入的文字轉出來的音頻，相結合造成虛擬主播的演示。

這就是咱們爲國家電網作的虛擬主播項目。當時拍這個視頻是邀請了他們的女主播到演播室來，她念了不少份新聞稿，拍了一組視頻，最後經過了對抗網絡的學習以後，最後SDK的包裝效果出來這樣一個虛擬主播的視頻。虛擬主播的視頻後臺都有相應的配置，不是一個固定的效果，用戶登陸虛擬主播的後臺後，能夠去選用卡通類的、仿真人類的、3D類的不一樣的選型，根據輸入的文字能夠調整主播的位置，好比左邊中間右邊，以及要不要開小窗去播另一個視頻。這些都有相應的後臺管理和相應的後臺配置去更靈活的達到您的業務需求，而不是很是死板的效果。

4.9 內容生產——雲剪輯

雲剪輯是咱們在Web端的很是重量級的產品，如今也普遍應用於一些互娛的頭部客戶裏面，如今提到好比經常使用的瀏覽器打開一個你部署於私有云或者公有云的地址，利用網頁端的技術，而不是傳統利用網絡通訊的方式，由服務器去渲染，把渲染結果傳回網端顯示，這樣對網絡的要求比較高，咱們雲剪主要利用Web端的能力，儘可能在本地作渲染，減小對網絡的依賴，實時的瀏覽性會更高一點。咱們如今雲剪這個產品功能的應用和咱們移動端的SDK同級產品功能的演示。好比是按照幀作一些剪輯包括貼紙、轉場、粒子、字幕、特效、一鍵主題包裝，爲了兼容第三方，由於在PC上可能更專業。當時您在前端預覽這些效果之後，最後出片的時候咱們可能會把這樣的工程發到後端服務器上去，由服務器去作一個更快捷的渲染，在服務器中渲染的時候，您能夠新建一個工程開始作下一個項目，二者不干擾。

4.10 內容生產——雲剪輯模板編輯

雲剪輯模板編輯這個指的是剛剛提到的剪輯模板的需求，這個模板的製做不光是在雲剪上面，它在移動端上也能夠製做，至關於用戶當時作的片我想分享個人效果，咱們把你的效果做爲模板，輸出出去能夠指定哪些東西是可替換的，哪些效果是您固定的，由這樣的方式來分享您的包裝技術，你能夠把你的模板上傳到咱們的平臺上去，和其餘的用戶去作一些分享。

4.11 生產內容——直播剪輯

直播剪輯也是經常使用的應用方式，咱們能夠在直播的過程中，當時的直播流直接作一些直播的剪輯，而不是直播完生成大文件再去作剪輯，這是一個實時的剪輯過程。

4.12 內容生產——移動端工具

根據咱們前面講的好比說Web端PC端的給咱們的一些解決方案，配合咱們移動端更普及的工具來作一些結合，好比說咱們能夠作一些相似於抖音輕剪輯的方案，以及加一些貼紙軌字幕軌視頻軌音頻軌這樣一些深度剪輯的方案，以及咱們結合後臺的小程序，H5的一些解決方案，咱們在移動端都能有相應的解決方案。

4.13 素材生產——特效製做工具

稍微提一下咱們的素材特效製做工具，這個工具是咱們素材創做平臺的一個重量級產品，整個產品的思惟邏輯是爲了設計人員作的。這個工具是獨立的不是插件，獨立的程序在PC上、Mac上Windows上都有，有SDK全部的原子特效，每一個特效能夠加關鍵幀，添加軌道去作特效的結合，好比這個界面上三界貝塞爾的曲線調節，最後把你的特效直接輸出一個字幕包轉場包等等。咱們都有相應的分類，出來的素材包再結合SDK作一些相應的應用給其餘的用戶。

4.14 內容生產——全平臺互聯互通

其實個人的整個構思是但願咱們把咱們的移動端、PC端Web端以及素材特效製做和內容生產徹底的作一個全平臺的互聯互通。我以爲是對於如今視頻行業的考覈咱們的一個願景，也是咱們不斷持續爲之努力的方向。