2016年做爲視頻直播元年,不管從資本層面不斷高漲的估值,到平臺主播各類天文數字的報酬,再到像「局座」這樣的主流人士爭相上直播,直播的社會熱度可見一斑。而各大直播平臺在經歷了直播概念從無到有的階段後,如何作出差別化,如何解決在野蠻生長期產生的各類涉黃問題,成爲了幾乎全部平臺「成長的煩惱」。拋開政策、內容問題不說,單就技術層面,基於圖像技術的創新成爲解決這些難題最爲可行的辦法。做爲Tu料的首個分享,咱們首先就選擇了直播這個熱門話題,就圖像技術在直播中的應用作一個入門的介紹。該分享系列整理自塗圖CTO在架構師沙龍上的演講內容。算法
愛漂亮之心,人皆有之。早期的圖片美顏教育了市場,到了直播時代,美顏一樣成爲直播平臺的標配。就目前來講,直播美顏用的主流技術是OpenGL ES。它的好處首先是直接在GPU上運行的,因此性能高、功耗小,用在直播上比較划算。第二,它是跨平臺的,iOS和安卓都支持,美顏效果可以直接在這兩個平臺上達到跨平臺的效果。另外OpenGL ES有一個優點,就是有大量現成的開源庫。好比像GPUImage,谷歌的grafika,還有基於安卓的一些具備實踐意義的庫,都是很經常使用的。網上也有一些比較熱心的開發者把本身的美顏的算法直接開源,包括一整套解決方案,從採集處處理到美顏處理,到最後輸出一個源編碼,都有相關的解決方案。架構
市面上大部分美顏產品的通常原理都是類似的。攝像頭採集畫面,經過必定的方式處理,最後輸出一張美顏後的圖片。框架
具體的說,原圖首先通過磨皮處理,也就是把痘、斑這些消除掉。而後把通過磨皮的圖片與原圖進行混合。混合這個步驟是不可缺乏的,由於若是隻用磨皮後的圖,很容易丟失細節。並且把兩張圖混合,還能夠經過調整兩個圖的混合權重,來控制磨皮的程度,達成不一樣級別的磨皮效果。固然最後一步也很關鍵,就是美膚,好比把皮膚膚色調得白一點、紅嫩一點,或者一些特殊的需求均可以實現。基本上大部分的美顏,都是這樣的流程。性能
本質上說,一張圖就是一個二維的數據。若是相臨的兩個區域灰度值相差比較大,這就意味着存在着噪點。好比臉上有個痘,這個痘天然產生一個灰度值的變化,從抽象意義上說就是一個噪點。因此美顏磨皮的算法,核心是去噪。去噪有不少的辦法,網上有各類各樣的算法,包括現成的論文。可是無論產用什麼算法,美顏的去噪算法都要保持一個特色,那就既要是邊界保持,同時還要作到平滑,也就是要濾波。測試
濾波算法中比較常見的是雙邊濾波,它的優勢在於很高效,所以很是適合移動平臺。還有一些其餘的算法比較複雜一點,也能夠達到那樣的效果,可是在移動應用上效率不高。雖然GPU是並行運算的,很適合這種運算,但GPU的能力是有必定範圍的,超過這個範圍也很耗電。包括雙邊濾波在內,一種濾波算法也有各類各樣實現,考慮在移動平臺上運行,能夠作一下特別的優化,好比在精度計算裏,適當下降精度,達到效果與效率的平衡。優化
在作好磨皮後,最後一個流程就是膚色調整。調整膚色自己的手法已經很是成熟,因此更難的其實在於膚色檢測。爲何要作膚色檢測?有些早期的直播美顏是沒有這個功能的,因此他們就是以美化的膚色爲基礎,簡單粗暴的把整個圖像按這個色彩所有處理掉了,這就形成了總體偏色,效果還不如不作。所以,在處理圖像前,必須先進行膚色檢測,在圖像的全部像素點中找到對應膚色範圍的像素再進行處理。編碼
直播中的膚色檢測特殊的地方在於顏色空間的轉換。由於跟圖像處理相關的顏色空間主要有三種:RGB、YUV、HSV,而這三種色彩空間在直播中都要用到。spa
RGB是最多見的色彩空間,咱們平常用的顯示設備就是基於RGB空間,這裏很少解釋。設計
YUV是一種比較傳統的顏色空間,最先是應用在電視信號的傳播裏面的,目前多用在直播的數據採樣、傳輸的過程。這是由於人眼對亮度(Y)遠比色度(U、V)更敏感,因此YUV比起RGB更容易被壓縮,這樣就更容易節省帶寬進行傳輸。視頻
而基於HSV顏色空間纔是用來作膚色檢測的。由於若是用RGB來作膚色檢測,須要檢測R、G、B三個值是否同時知足膚色的顏色範圍,YUV同理。而HSV三個值:色調(H)、飽和度(S),明度(V)中,只有H是關乎膚色的,所以只須要對H進行考慮(H值在25-50之間便可判斷爲膚色),所須要的運算量天然比RGB少不少。
因此,在直播的不一樣階段,要分別使用這三種色彩空間,要不停的把這三種色彩空間進行相互轉換。
美顏算法當然重要,但美更是一件很主觀的事。算法寫得很是優美和高效並不能保證美顏效果是最好的,因此用標準的算法處理後,還須要設計師依據本身的經驗去進行調整。好比不少平臺算法都大同小異,可是爲何最終出來的美顏效果讓人感受仍是有差別,其實就是說裏面有不少細節在,須要花時間優化,特別是用戶的需求是什麼,怎樣更漂亮。
再舉一個例子。不少平臺在不一樣的光照條件下,好比白天、晚上,室內、室外,天然光、人工光,直播出來的美顏效果差別很大。這其中的緣由可能就是算法中沒有考慮光照因素,結果使很小的因素影響了效果。
因此,這就要求進行大量的測試,用技術手段結合人工去優化,才能保證最佳的美顏效果。仍是那句話:細節是魔鬼。
說到性能,iOS平臺目前通常來講沒什麼問題,或者問題不多。好比 GPUImage是第三方的,算是iOS平臺上頗有歷史的一個庫。它實現了不少效果,好比剛纔提到的一些算法,在GPUImage裏面能夠看到簡單版的實現,包括怎麼寫腳本,怎麼跑起來,怎麼作雙邊濾波,裏面有簡單的實現,也能夠有很好的效果。包括在作直播的時候,GPUImage能夠做爲很好的客戶端擴展,惟一須要作的事情,就是加上一個推流;由於它包含的從客戶端的採集、處理到每一幀的數據,不管是YUV,仍是RGB,均可以輸出來。因此iOS平臺上相對來講問題少不少。
而安卓平臺問題就比較大了。由於安卓自己的特色,廠商不少、設備不少、系統版本不少,所以相互間比較難兼容。
第一個是設備問題。好比一個美顏算法在不一樣機器上跑起來,即便是同一款GPU,性能也可能會差異很大。因此,爲了保證一個腳本去適應不一樣的機器,有種辦法是這樣的:根據GPU的性能作了一個分級算法,若是評級比較高就採用最複雜的算法,若是性能評級比較低,就把美顏效果下降,保證在大部分環境下使用。
第二是版本的問題。好比,只有4.0以上版本纔可以經過相機,直接從相機採集裏面獲取到一個紋理,這個叫GLTEXTUREEXTERNAL_OES,相機直接把採集到的畫面轉給GPU,所有經過GPU加速。4.3之後能夠作什麼事情?從相機採集處處理到編碼,走的是全GPU,這是效果最好的也是最快的,固然這對系統的兼容要求是最高的。由於有些廠商在實現的時候沒有兼容這些東西,因此GPU加速很難作。
還有輸出YUV。不少直播平臺都要支持輸出YUV。這些YUV的數據就涉及到CPU和GPU的轉換過程。由於處理多是在GPU裏面完成的,GPU無法直接輸出來,就須要從GPU到CPU的轉換,這個目前來講尚未比較好的方案。安卓目前一些底層的GPU尚未開放,有的時候能夠經過Graphics Buffer來實現,可是安卓並無把這個開放出來。若是要有這個東西,惟一能作的是把安卓源代碼拿出來,包括把源代碼link到關鍵碼裏面去,這樣才能達到比較好的效果。CPU到GPU的轉換,是能夠毫秒級別的,若是直接從GPU轉換到CPU,可能好的設備也會花費20毫秒左右,這樣致使的數據,你預測的是24幀,可能就會有掉幀的狀況。在主流上可能影響不大,大部分狀況下都是能夠接受的,固然這最後也要看用戶只有的應用場景。
最後說說常被問到的一個問題: iOS平臺、安卓平臺都自帶有人臉檢測的API,爲何不用?
首先是系統頻率低、速度慢。蘋果可能有這樣一個考慮,不要影響到相機API的正常使用,因此頻率很低。檢測一次可能3秒鐘;不是檢測一次須要3秒鐘,而是3秒鐘纔給你一個數據,告訴你這張照片有沒有人臉。而做爲一個實用的產品,一秒鐘假設24幀,起碼要作十幾回檢測才能夠達到實時的要求,要否則的話跟不上對幀率的要求。在安卓問題更嚴重,由於還要看設備,有些設備甚至就沒有,廠商把這個設置就直接去掉了。另一個特徵點的問題。iOS上面有這些特徵點,好比眼睛、嘴巴、鼻子這些,安卓上面是直接沒有這些特徵點的。
以上的內容都屬於美顏1.0的概念,而目前最新的美顏技術已經發展到了2.0概念。打個簡單的比方,若是美顏1.0只是化妝的話,美顏2.0基本就能達到整容的效果——把眼睛變大,把圓臉變成瓜子臉。而實現這一效果的基礎就是人臉識別。這很好理解,只有肯定了有沒有人臉,知道了五官在什麼位置,咱們才能把它們「整」的更漂亮。
關於人臉識別,就又是一個大問題了。限於篇幅,咱們會在下一期詳細展開這個問題說。