阿里妹導讀:在現實世界中,信息一般以不一樣的模態同時出現。這裏提到的模態主要指信息的來源或者形式。例如在淘寶場景中,每一個商品一般包含標題、商品短視頻、主圖、附圖、各類商品屬性(類目,價格,銷量,評價信息等)、詳情描述等,這裏的每個維度的信息就表明了一個模態。如何將全部模態的信息進行融合,進而得到一個綜合的特徵表示,這就是多模態表徵要解決的問題。今天,咱們就來探索多模態表徵感知網絡,瞭解這項拿過冠軍的技術。算法
做者 | 越豐、簫瘋、裕宏、華棠安全
近些年,深度學習飛速發展,在不少領域(圖像、語音、天然語言處理、推薦搜素等)展示出了巨大的優點。多模態表徵研究也進行入深度學習時代,各類模態融合策略層出不窮。網絡
在這裏,咱們主要對圖像和文本這兩個最多見的模型融合進行探索,並在2個多模態融合場景中取得了目前最好的效果。框架
圖像編輯是指對模擬圖像內容的改動或者修飾,使之知足咱們的須要,常見的圖像處理軟件有Photoshop、ImageReady等。隨着人們對於圖像編輯需求的日益提高,愈來愈多的圖像要通過相似的後處理。可是圖像處理軟件使用複雜且須要通過專業的培訓,這致使圖像編輯流程消耗了大量人力以及時間成本,爲解決該問題,一種基於文本的圖像編輯手段被提出。基於文本的圖像編輯方法經過一段文本描述,自動地編輯源圖像使其符合給出的文本描述,從而簡化圖像編輯流程。例如圖1所示,經過基於文本的圖像編輯技術能夠經過文字命令改變模特衣服的顏色,紋理甚至款式。函數
圖1 基於文本的圖像編輯技術示例學習
然而,基於文本的圖像編輯技術目前仍然難以實現,緣由是文本和圖像是跨模態的,要實現一個智能的圖像編輯系統則須要同時提取文本和源圖像中的關鍵語義。這使得咱們的模型須要很強的表示學習能力。優化
現有方法編碼
目前已有一些針對基於文本的圖像編輯所提出的方法。他們都採用了強大的圖像生成模型GAN(Generative adversarial network)做爲基本框架。Hao[1]訓練了一個conditional GAN,它將提取出來的text embeddings做爲conditional vector和圖像特徵鏈接在一塊兒,做爲兩個模態信息的混合表示,而後經過反捲積操做生成目標圖像 (如圖2)。spa
圖2 使用傳統conditional GAN實現的基於文本的圖像編輯方案.net
Mehmet[2]對以上方法作了改進,他認爲特徵鏈接並非一種好的模態信息融合方式,並用一種可學習參數的特徵線性調製方法3去學習圖像和文本的聯合特徵。FiLM減小了模型的參數,同時使得聯合特徵是可學習的,提升了模型的表示學習能力 (如圖3)。
圖3 使用FiLM+conditional GAN實現的基於文本的圖像編輯方案
咱們的工做
咱們的工做從理論角度分析了鏈接操做和特徵線性調製操做間特徵表示能力的優劣,並將這兩種方法推廣到更通常的形式:雙線性 (Bilinear representation)。據此,咱們提出表示學習能力更加優越的雙線性殘差層 (Bilinear Residual Layer),用來自動學習圖像特徵和文本特徵間更優的融合方式。
Conditioning的原始形式
首先,本文將介紹conditional GAN中的鏈接操做和它的形式化表達,假設和
分別爲前一層的輸出和conditional vector,其中D和
爲特徵維度,鏈接的表示爲
,後一層的權重
,其中
和
分別爲
和
對應的權重,O爲輸出維度,咱們可獲得以下變換:
其中爲輸出張量。
FiLM形式
FiLM源自於將特徵乘以0-1之間的向量來模擬注意力機制的想法,FiLM進行特徵維度上的仿射變換,即:
其中,是縮放係數
的權重。顯而易見,當
爲全1矩陣時,FiLM退化成Conditioning的原始形式,由此,能夠得出FiLM是鏈接操做的更通常狀況。
Bilinear形式
以上的方法都只是線性變換,咱們的工做在此基礎上,提出了雙線性的形式,即輸出張量第i維的值由權重矩陣控制:
。
通過證實,Bilinear形式能夠看作FiLM的進一步推廣,它具備更增強大的表示學習能力。證實以下:
爲了證實FiLM能夠由Bilinear的形式表示,首先要將FiLM變換寫成單個特徵值的狀況,假設和
分別對應
和
中第個i輸出值對應的權值,FiLM能夠寫成:
以上形式等同於:
其中,而
能夠經過隨機選擇
中的一個非零元素
來構造,從而
構造以下:
中除了第k行其餘位置的元素全爲0。顯而易見
和
的秩均爲1,由此可得出
,也就是說,當Bilinear變換矩陣
是稀疏的而且有不大於2的秩時,Bilinear形式等同於FiLM。這間接說明Bilinear形式是FiLM的推廣。
Bilinear的Low-rank簡化形式
雖然Bilinear有更強的表示能力,但它的參數實在是太多了,爲了下降模型複雜度,實際中經常採用一種低秩的方法[4]簡化計算,經過將分解爲兩個低秩陣
和
,其中d爲指定的秩。由此,Bilinear的Low-rank簡化形式可寫爲:
而後經過矩陣將輸出張量投影到輸出維度上:
咱們將、
和P做爲網絡內部可學習的層,並結合短路結構,提出雙線性殘差層 (Bilinear Residual Layer, BRL),具體可見圖4。
算法的總體框架如圖4,網絡由生成器和判別器構成,生成器有三個模塊:編碼模塊,融合模塊,解碼模塊。編碼模塊由預訓練好的文本編碼器和圖像特徵提取器
構成,圖像特徵提取器直接使用VGG16模型conv1-4層權值。融合模塊由4個雙線性殘差層 (Bilinear Residual Layer, BRL)構成,解碼模塊則是將處理好的特徵上採樣成圖像。
圖4 方法的總體框架
訓練時,模型獲得圖像-文本對的輸入,t爲匹配圖像x的對應描述,假設用於編輯圖像的文本爲
,生成器接收和x做爲輸入獲得:
其中,F表示融合模塊。對抗訓練過程當中,判別器被訓練以區分語義不相關的圖像文本對,所以咱們須要從文本庫中選擇不匹配的文本做爲負樣本,判別器的損失函數以下:
其中前兩項爲了區分正負樣本對,第三項爲了儘量識別生成圖像和文本的不匹配。同時生成器G被訓練以生成和文本
匹配的圖像:
總體目標函數即由和
所構成。
咱們的方法在Caltech-200 bird[5]、Oxford-102 flower[6]以及Fashion Synthesis[7]三個數據集上進行了驗證。定性結果如圖5所示,第一列爲原圖,第二列表示Conditional GAN原始形式的方法,第三列表示基於FiLM的方法,最後一列是論文提出的方法。很明顯前二者對於複雜圖像的編輯會失敗,而論文提出的方法獲得的圖像質量都較高。
圖5 生成樣本定性結果
除此以外,實驗還進行了定量分析,儘管對於圖像生成任務還很難定量評估,可是本工做採用了近期提出的近似評價指標Inception Score (IS)[8]做爲度量標準。由表6可見,咱們的方法得到了更高的IS得分,同時在矩陣秩設定爲256時,IS得分最高。
表6 生成樣本定量結果
在調研多模態融合技術的時候,有一個難點就是文本的描述其實對應到圖像上局部區域的特性。例如圖7,Long sleeve對應了圖像中衣服袖子的區域,而且是長袖。另外,整個文本描述的特性對應的是整個圖像的區域。基於這個考慮,咱們認爲圖像和文本須要全局和局部特徵描述,圖像全局特徵描述對應到整個圖像的特徵,局部特徵對應圖像每一個區域的特徵。文本的全局特徵對應整個句子的特徵,文本的局部特徵對應每一個單詞的特徵。而後文本和圖像的全局和局部區域進行特徵融合。
針對這種融合策略,咱們在時尚圖像生成任務上進行了實驗。時尚圖像生成(FashionGEN)是第一屆Workshop On Computer VisionFor Fashion, Art And Design中一個比賽,這個比賽的任務是經過文本的描述生成高清晰度且符合文本描述的商品圖像。咱們在這個比賽中客觀評分和人工評分上均得到的第一,並取得了這個比賽的冠軍。
咱們的方法
咱們方法基於細粒度的跨模態注意力,主要思路是將不一樣模態的數據(文本、圖像)映射到同一特徵空間中計算類似度,從而學習文本中每一個單詞語義和圖像局部區域特徵的對應關係,輔助生成符合文本描述的細粒度時尚圖像,如圖7所示。
圖7 不一樣單詞描述圖像不一樣區域示例
傳統的基於文本的圖像生成方法一般只學習句子和圖像總體的語義關聯,缺少對服裝細節紋理或設計的建模。爲了改進這一問題,咱們引入了跨模態注意力機制。如圖8左邊區域,已知圖像的局部特徵,能夠計算句子中不一樣單詞對區域特徵的重要性,而句子語義能夠視爲基於重要性權重的動態表示。跨模態注意力能夠將圖片與文字的語義關聯在更加精細的局部特徵層級上建模,有益於細粒度時尚圖像的生成。
圖8 跨模態注意力機制,左圖表示經過圖像局部特徵計算不一樣單詞的重要性,右圖表示經過詞向量計算不一樣圖像局部特徵的重要性
咱們用bi-LSTM做爲文本編碼器,GAN做爲對抗生成模型,並將生成過程分爲由粗到精,逐步增長分辨率的兩個階段:
圖9 總體框架概覽,頂部分支利用文本總體語義學習低分辨率的圖像大體結構,底部分支在上一階段的輸出上作圖像細節的修正,生成更加細粒度的時尚設計或紋理。
對抗生成網絡
傳統的生成式對抗網絡由判別器和生成器兩部分組成,判別器的目標是判別生成圖像是否在真實數據集的分佈中,而生成器的目標是儘量的騙過判別器生成逼近真實數據集的圖像,經過二者的迭代更新,最終達到理論上的納什均衡點。這個過程被稱爲對抗訓練,對抗訓練的提出爲創建圖像等複雜數據分佈創建了可能性。
對於文本生成圖像的任務,須要更改生成器的輸入以及目標函數,咱們將兩個階段的生成器分別設爲和
,整個流程可被形式化爲:
其中是句子向量,D爲雙向LSTM兩個方向上輸出的維度和,
是詞向量矩陣,T指代單詞的個數,
表示第一階段激活值輸出,
表示生成的圖像。咱們須要優化的目標函數定義爲:
其中是對抗損失,
是生成圖像和對應描述的類似性損失,
由兩部分組成:
其中第一項非條件損失表示圖像自己的真僞,第二項條件損失表示圖像和句子語義是否匹配。對也同理。
判別器,同時也被訓練以最小化交叉熵損失:
該項對也同理。
基於跨模態注意力的類似性
本節將詳細介紹在咱們的方法中用到的跨模態注意力機制,給出圖像-文本對,咱們取Inceptionv3中mixed-6e層的輸出768×17×17做爲圖像區域特徵,咱們將空間維度展平獲得768×289,averagepooling層的輸出2048做爲圖像全局特徵,對這些特徵使用投影矩陣
和
變換到
和
。由此,能夠獲得類似度矩陣:
其中元素表明了第i個單詞和第j個子區域的點積類似性。
圖像-文本類似性
對於第i個單詞,咱們最終能夠創建不一樣區域特徵的加權和(越類似賦予越大的權重):
其中是對應於第i個單詞,圖像特徵的動態表述。
對第i個單詞,求得和
的餘弦類似度:
綜合可得圖片對的類似度爲:
其中超參數表示最相關的單詞-圖像區域對對最終類似度得分的影響程度。在一個batch的圖像-文本對中,咱們最大化正確對的類似度,最小化錯誤對的類似度:
其中,
M爲batchsize的大小。
文本-圖像類似性
同理的,文本-圖像的類似性能夠形式化爲:
全局類似性
以上咱們計算了局部特徵上的類似性得分,在全局區域,咱們能夠利用和
的餘弦距離做爲全局類似度:
綜上,有:
經過優化以上損失函數,咱們最終獲得的生成的服裝圖片的效果圖以下所示:
附上算法效果圖:
咱們主要對圖像和文本這兩個最多見的模型融合進行探索,在文本編輯圖像任務上,咱們提出基於雙線性殘差層 (Bilinear Residual Layer)的圖文融合策略,並取得了最好的效果,相關工做已經發表在ICASSP 2019上,點擊文末「閱讀原文」便可查看論文。在時尚圖像生成任務上,咱們使用了細粒度的跨模態融合策略,並在FashionGen競賽中取得第一。
關於咱們
阿里安全圖靈實驗室專一於AI在安全和平臺治理領域的應用,涵蓋風控、知識產權、智能雲服務和新零售等商業場景,以及醫療、教育、出行等數億用戶相關的生活場景,已申請專利上百項。2018年12月,阿里安全圖靈實驗室正式對外推出「安全AI」,並總結其在知識產權保護、新零售、內容安全等領域進行深度應用的成果:2018年整年,內容安全AI調用量達到1.5萬億次;知識產權AI正在爲上千個原創商家的3000多個原創商品提供電子「出生證」——線上與全平臺商品圖片對比,智能化完成原創性校驗,做爲原創商家電子備案及後續維權的重要依據;新零售場景的防盜損對小偷等識別精準度達到100%。
原文連接 本文爲雲棲社區原創內容,未經容許不得轉載。