隨着4G的普及和5G的推出,內容消費的訴求愈來愈受到人們的重視。2019年互聯網趨勢報告指出在移動互聯網行業總體增速放緩的大背景下,短視頻行業異軍突起,成爲「行業黑洞」搶奪用戶時間,儘管移動互聯網人口紅利見頂,新的增加點難以尋覓,但中國短視頻人均使用時長及頭部短視頻平臺日均活躍用戶均持續增常(如圖1所示)。算法
在淘寶,短視頻業務一直以來都是很是重要的業務,是淘寶app從單一的商品導購app走向商品導購+內容消費的多元化app的關鍵所在。相較於單一的商品導購,商品導購+內容消費的模式有效增長用戶粘性,提升用戶的停留時長,最終得到GMV的持續增加。不只如此,2019年視頻營銷發展趨勢白皮書指出目前視頻內容的轉發量已達到圖文的12倍,視頻營銷已經成爲品牌最愛的營銷方式,使用視頻營銷比不使用視頻營銷收入增加速度快49%,且從搜索得到的網站流量多41%。現現在淘寶每一年新增內容數達數十億,其中視頻數佔比持續提高,預計到2022年視頻的佔比會超過50%。如何對規模如此龐大的視頻進行內容化理解,高效賦能視頻運營和個性化分發變得極爲關鍵。網絡
視頻內容化理解的首要問題是構建一個完備的、層次化的類目體系,相比於傳統的淘寶商品類目體系,視頻類目體系須要解決兩大問題。app
雖然淘寶的商品類目體系能夠部分代替視頻類目體系的功能,但會致使短視頻業務的用戶心智和商品導購業務同質化,所以構建一套屬於短視頻業務本身的視頻類目體系已經迫在眉睫。有了構建完成的視頻類目體系,另一個更重要的問題是產出高效的視頻分類算法,用於對海量的視頻進行標籤生成。爲了得到好的點擊效果,視頻生產者每每會採用吸引眼球的封面圖或者標題,可是和視頻自己的內容關聯性很弱。此外,淘寶的視頻自然和商品有強關聯性,如何利用好商品的信息也很是關鍵。框架
不一樣於抖音美拍等其餘視頻的內容體系重新聞、科技、金融等領域作分類劃分,淘寶的視頻類目體系從商品導購、產品功能展現、商品知識獲取等角度出發,由行業經驗豐富的運營進行設計,包含了30+一級類目和150+二級類目,其中一級類目是對視頻的領域的劃分,例如服飾/家居日用/美食/萌寵等,二級類目是在一級類目的基礎之上對視頻的子領域的劃分,例如一級類目服飾下的熟女穿搭/少女穿搭/兒童服飾/中老年穿搭等,圖2是視頻類目體系的幾個案例。在這個體系之上多媒體算法團隊投入近半年的時間提出了基於模態注意力機制的多模態分層視頻分類算法。機器學習
▐ 視頻分類的難點函數
多模態:淘寶短視頻的信息是很是豐富的,有視頻/封面圖/文本/音頻/商品等模態,分別刻畫了短視頻不一樣維度的信息,這些信息的展現形式都是非結構化的,如何將非結構化的信息轉化成結構化的特徵是一大難點。不一樣模態的信息在不一樣的視頻中對類別的貢獻度也是不同的,小部分視頻經過標題就能夠簡單地推測出類別,但大部分視頻的標題有效信息過少,須要兼顧其餘模態信息才能推測出類別,所以在算法的訓練中如何協同不一樣模態的特徵,達到不一樣模態特徵互補的效果又是另外一個難點。學習
層次化label:單獨使用二級類目的label雖然也能夠進行算法的訓練,可是沒法使算法達到最優的效果,由於不一樣一級類目下面的二級類目之間的差距是遠大於同一個一級類目下面的二級類目之間的差距的,單獨使用二級類目的label沒法學習到這個信息。所以如何在算法的訓練中充分利用一級類目+二級類目的層次化label一樣是一個難點。測試
模態信息缺失:淘寶視頻包含多種不一樣的模態信息,然而這些視頻不必定包含所有的模態信息,有些視頻沒有外掛商品,有些視頻沒有對應的視頻標題或者摘要,還有的視頻沒有封面圖。如何讓算法可以自適應模態缺失的狀況也是一個難點。優化
▐ 多模態分層視頻分類算法框架圖網站
針對創建高效準確的視頻分類算法的迫切需求,解決視頻分類中存在的諸多挑戰,咱們提出了基於模態注意力機制的多模態分層視頻分類算法,算法整體框架如圖3所示。算法的核心主要分爲3個部分:
(1) 預訓練模型的選擇,
(2) 模態融合方法的設計,
(3) 多目標的分類器的設計。
▐ 預訓練模型的選擇
隨着硬件水平的提升以及大規模的預訓練數據集的推出,遷移學習在深度學習任務中扮演的角色愈來愈重要。尤爲是在缺少訓練數據的狀況下,使用預訓練模型進行遷移學習可以加速loss收斂並顯著提高下游任務的準確率。
(1) 視覺模態:視頻和封面圖共同構成了視覺模態信息,視頻是視頻內容的主體,包含了主要的內容信息,封面圖是視頻內容的精華,二者能夠互相補充。在VGG1六、Inception 系列模型、ResNet等經典的圖像分類模型中,咱們選擇了Inception-Resnet v2[1]做爲視覺特徵提取的模型。這個模型是2016年Google推出的大規模圖像分類模型,既具備Inception系列模型的優點,可以經過堆疊不一樣的Inception Block增長網絡的寬度提升算法的準確率,還加入了Resnet的殘差學習單元(如圖4所示),殘差學習單元的輸出由多個卷積層級聯的輸出和輸入元素間相加,可以緩解網絡退化的問題,增長深度網絡的層數,有效提升視覺特徵的的泛化性。
視頻特徵序列相較於普通的圖像特徵包含了更加豐富的信息,不一樣特徵之間具備時序相關性。咱們採用NetVLAD(如圖3所示)做爲視頻特徵的聚合網絡。NetVLAD常出如今近幾年國內外視頻分類大賽的top方案中,以CNN的網絡結構實現VLAD算法,構成了新生成的VLAD層,VLAD算法(如公式1所示)統計的是特徵x和其相應的聚類中心c的殘差和,a決定c是不是特徵x距離最近的聚類中心。相比於Average Pooling,NetVLAD[2]能夠經過聚類中心將視頻序列特徵轉化爲多個視頻鏡頭特徵,而後經過能夠學習的權重對多個視頻鏡頭加權求和得到全局特徵向量。
(2) 音頻模態:淘寶視頻中包含大量的教程類視頻,這些視頻內容的關鍵信息經過音頻表現出來,所以在淘寶視頻分類中音頻模態相當重要。咱們首先從淘寶視頻中分離音頻信號,經過計算MFCC特徵將音頻信號轉換爲圖像輸入,而後使用VGGish[3]提取音頻特徵序列。音頻特徵序列與視頻特徵序列相似,使用NetVLAD提取不一樣鏡頭對應的音頻特徵,而後經過可學習的權重融合生成音頻模態的全局特徵向量。
(3)文本模態:視頻內容中的文本包含了視頻標題和視頻摘要,是視頻描述內容的大體歸納,對視頻分類起到指導性的做用。文本模態,咱們使用Bert模型生成視頻標題和視頻摘要的全局特徵向量。Bert是18年Google推出的大規模文本預訓練模型,可謂是nlp領域大力出奇跡的表明,Bert用12層的transformer encoder將nlp任務的benchmark提升了一大截。相較於普通的word2vec,通過海量文本預訓練的Bert可以在視頻分類算法中引入更多的遷移知識,提供更精準的文本特徵。
(4) 商品模態:商品模態是淘寶視頻區別於站外視頻的標誌,是體現咱們的視頻分類算法優點的關鍵所在。咱們沿用文本模態的Bert模型生成商品模態的全局特徵向量。商品模態在推薦領域經常使用item_id lookup到商品的embedding矩陣再接入下游網絡,然而咱們的視頻分類算法是離線學習的,對於新發現的item_id不能很迅速地得到它的embedding特徵,所以咱們使用Bert模型提取商品的標題和類目名稱的文本特徵,做爲商品模態的全局特徵向量。
▐ 模態融合方法的設計
淘寶視頻的多模態信息十分豐富,不一樣模態之間提供的信息內容並非徹底一致的。如何設計優秀的多模態特徵融合方法,充分利用非結構化的多模態信息,將不一樣模態間的特徵對齊到同一特徵空間,使得不一樣模態信息之間取長補短,這是視頻分類算法模型中最關鍵的模塊。咱們比較了多種不一樣的多模態特徵融合方法,實驗結果如圖表格1所示。
(1) TFN和LMF(如圖5所示)都是將多模態特徵映射到不一樣模態間外積的高維特徵空間進行特徵融合。TFN[6]經過模態之間的外積計算不一樣模態的元素之間的相關性,但會極大的增長特徵向量的維度,形成模型過大,難以訓練。而LMF[7]是TFN的等價形式,利用低秩矩陣的分解,將本來的各模態間的先外積再全鏈接變換過程,等價爲各個模態先單獨線性變換到輸出維度,以後多個維度點積,能夠看做是多個低秩向量的結果的和,LMF相比TFN減小了不少參數量,是TFN的優化版本。但在視頻分類的算法中,這2種方法的效果都不及預期,分析緣由在於視頻分類的模態特徵長度都在千維左右,即便是LMF也會出現參數數量爆炸的狀況,爲了保證參數量不爆炸就必須先將每一個模態特徵降維,然而降維自己是有損的,致使降維後的模態特徵再外積不如直接利用不一樣模態間特徵拼接。
(2) 淘寶視頻不一樣模態之間信息一般是不一致的,這些不一致的模態信息之間有些內容和類別標籤息息相關,有些內容則相關性較低。爲了關注那些與類別標籤相關性更高的模態信息,下降對於不重要模態信息的關注程度,咱們提出了基於Modal Attention的多模態特徵融合方法。Modal Attention基於融合的特徵向量預測一個模態個數維度的基於多模態聯合特徵的對於不一樣模態的重要性分佈機率,這個模態分佈機率與多模態融合特徵作點積,獲得對於不一樣模態特徵重要性從新加權事後的新的多模態融合特徵。從表格1能夠看出,基於Modal Attention的多模態特徵融合方法的準確率顯著超過了TFN和LMF,驗證了基於Modal Attention的多模態特徵融合方法的優點。
(3) 爲了應對淘寶視頻中出現的模態缺失狀況,咱們使用了modal級別的dropout,在訓練的時候以必定比例隨機性去除某個模態信息,增長模型對於模態缺失的魯棒性。在不添加modal dropout時,測試數據若是缺失10%的模態信息,測試精度會降低3.5%左右;在添加了modal dropout後,測試集精度降低不到0.5%,幾乎能夠忽略。同時添加modal dropout後,就算模態信息不缺失的狀況下,還可以提高測試集精度,提升約0.4%。
▐ 層次化的分類器的設計
通常來講,分類任務只有單一的分類目標,然而,淘寶視頻的標籤體系是一種結構化的分層分類任務,同時具備一級類目和二級類目,一級類目和二級類目之間有依存關係,構成了一種樹狀的分類體系結構,例如:二級類目的熟女穿搭、少女穿搭、男士休閒等都屬於一級類目的服飾類。針對這個任務,咱們提出了分層多標籤分類器(HMC)。
(1) 咱們將HMC分類器與很是經典的MLP分類器作對比。MLP分類器直接預測淘寶視頻的二級類目標籤,而後根據一二級類目之間的對應關係得到一級類目標籤。HMC分類器同時構建了一二級類目各自的分類通道,可以同時預測一二級類目標籤,結構圖如圖2所示。這種分類器相比於MLP,可以隱形的學習一二級類目的依賴關係,可以互相促進,提升分類精度,表格1的實驗結果證實了這一點。
(2) 基於HMC分類器,咱們添加了基於類別不匹配的多目標損失函數,具體公式見公式2。損失函數L由三部分構成,分別是一級類目損失L1,二級類目損失L2,以及一二級類別不匹配損失LH。一級類目損失和二級類目損失是一二級類目的交叉熵損失,可以使得網絡同時學習到多模態特徵與一二級類目的條件機率分佈,同時可以隱形的學習到一二級類目之間的依賴關係。然而,僅僅使用一二級類目損失沒法保證一二級類目之間的依賴關係,爲了緩解這個問題,咱們加入了類別不匹配損失,用於懲罰一二級類目不匹配的狀況。參數 λ 用來控制一級類目損失和二級類目損失之間的重要性相對程度,由於二級類目數量更多,學習更加困難,須要添加更大的權重去學習。參數 β 用來調節類別不匹配損失對於整體損失函數的重要性。添加類別不匹配損失以後,一二級類目不匹配的狀況大幅度降低,同時分類準確率也得到了提高。
Google AI掌門人Jeff Dean在NeurIPS舉辦期間指出在2020年多模態學習將會有很大的發展,可以解決更多單模態沒法解決的問題。咱們提出的基於模態注意力機制的多模態分層視頻分類算法方案爲淘寶的視頻內容化理解奠基了堅實的基礎,爲淘寶視頻的精細化運營能力和冷啓動能力作出了應有的貢獻。與此同時,咱們的方案還根據業務需求提供了無成本的可擴展能力,不只可以助力圖文內容化理解,提高圖文的理解深度,同時還能經過精細的視頻向量化表達來解決類似視頻召回、視頻抄襲檢測的問題。
基於模態注意力機制的多模態分層視頻分類算法方案爲淘寶的視頻內容化理解開了一個好頭,後續咱們還會在視頻內容化理解的領域內繼續耕耘。目前咱們正在嘗試更細粒度的多模態視頻標籤算法,力圖將目前的2級視頻類目體系推向2級視頻類目+多級視頻標籤的體系,經過視頻類目+視頻標籤的組合形式持續提高淘寶視頻的精細化運營能力和冷啓動能力。在多模態技術上,咱們會繼續關注如何更高效地進行模態融合,嘗試將預訓練技術引入多模態中,經過偏差重建的方法讓多個模態相互學習,提高模態融合的能力。
reference
[1] Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, inception-resnet and the impact of residual connections on learning[C]//Thirty-First AAAI Conference on Artificial Intelligence. 2017.
[2] Arandjelovic R, Gronat P, Torii A, et al. NetVLAD: CNN architecture for weakly supervised place recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 5297-5307.
[3] Hershey S, Chaudhuri S, Ellis D P W, et al. CNN architectures for large-scale audio classification[C]//2017 ieee international conference on acoustics, speech and signal processing (icassp). IEEE, 2017: 131-135.
[4] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[5] Wang W, Bi B, Yan M, et al. StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding[J]. arXiv preprint arXiv:1908.04577, 2019.
[6] Zadeh A, Chen M, Poria S, et al. Tensor fusion network for multimodal sentiment analysis[J]. arXiv preprint arXiv:1707.07250, 2017.
[7] Liu Z, Shen Y, Lakshminarasimhan V B, et al. Efficient low-rank multimodal fusion with modality-specific factors[J]. arXiv preprint arXiv:1806.00064, 2018.
[8] Wehrmann J, Cerri R, Barros R. Hierarchical multi-label classification networks[C]//International Conference on Machine Learning. 2018: 5225-5234.
We are hiring
咱們是淘系技術部多媒體算法團隊,咱們依託淘係數十億級的視頻數據,有豐富的業務場景和技術方向。咱們持續以技術驅動產品和商品創新,不斷探索和衍生顛覆型互聯網新技術。咱們不斷吸引機器學習、視覺算法、音視頻通訊、端側智能等領域全球頂尖專業人才加入,讓科技引領面向將來的商業創新和進步。
請投遞簡歷至郵箱:yangjiang.yj@alibaba-inc.com
本文做者:阮彤梟(曉何)、燕保明(元年)、王琳(有鄰)
本文爲阿里雲內容,未經容許不得轉載。