統一化視覺語義嵌入與多模態神經語言模型
摘要:html
受多模態學習和機器翻譯的最新進展的啓發,咱們介紹一種編碼器-解碼器管道學習模型(a): 一種圖像和文本的多通道聯合嵌入空間。(b):一種新的語言模型,用於從咱們的空間解碼分佈式表示。咱們的管道有效地結合了聯合圖像文本嵌入模型與多模態神經語言模型。咱們介紹的結構-內容神經語言模型,根據內容分解句子的結構,並由編碼器產生的表示條件。當解碼器能夠從亂序的句子開始產生新的標識,該編碼器容許對圖像和句子進行排序。咱們使用長短時間記憶(LSTM)編碼句子,咱們相比較有先進性能flickr8k和flickr30k上沒有使用對象的檢測。當使用的19層牛津卷積網絡,咱們還設置了新的最佳結果。此外,根據線性編碼器咱們展現了在空間向量運算方面學到的嵌入空間捕捉多模態的規律,例如藍色汽車的圖像 -「藍色」+「紅色」是與紅色汽車相近的圖像。有800張圖像生成的樣本說明可供比較。
1 介紹
本文介紹了一種對生成圖像說明文字(或字幕)問題的新方法,即轉換成編-解碼模型框架。對於編碼器,咱們學習一種圖像-句子聯合嵌入在使用了長短時間記憶(LSTM)遞歸神經網絡編碼的句子中的方法[ 1 ]。圖像特徵從深度卷積網絡投影到對應的長短時間記憶(LSTM)隱狀態的嵌入空間。是爲了學習對圖像和描述的排序損失的最小化。對於解碼,咱們引入了一個新的神經語言模型稱爲結構-內容神經語言模型 (SC-NLM)。SC-NLM 不一樣於已經存在的模型是由於它由編碼器產生的表示條件理順了那些一個紛繁句子的內容結構。算法
咱們發現,從SC-NLM採樣使咱們可以產生逼真的圖片說明,在生成說明文字製做方面有了很大的提升[ 2 ]。此外,咱們認爲,這種結合的方法很天然適合於實驗框架,這是一個很好的編碼器,能夠用來排序的圖片和標題,然而一個好解碼器也可用於從頭生成新的標識。
咱們的方法有效地結合圖像文本嵌入模型(編碼器階段)與多模態神經語言模型(解碼器階段)。此外,咱們的方法創建在機器翻譯中使用的相似的方法。
雖然咱們的工做重點是圖像描述的生成和排序,咱們也利用圖像和句子對多模態向量空間的性質進行定性分析。
咱們展現了使用一個線性的句子編碼器,語言規律[ 12 ]也延伸到了多模態向量空間。例如一個藍色汽車的圖像 -「藍色」+「紅色」是與紅色汽車相近的圖像。咱們定性檢查幾種類型的類比和結構與PCA(Principal Component Analysis)預測。所以,即便有一個全球性的圖像句子訓練目標,編碼器仍然能夠用來檢索本地(例如,單個詞語)。這和在機器翻譯中成對排序的方法相似。
1.1多模態表示學習
在學習圖像和文本的多模態表示上一個大的主體工做已經完成。經常使用的方法包括學習聯合圖像-字的嵌入以及嵌入圖像-句子變成一個公共空間。咱們提議管道直接使用這些想法。多模態學習其餘的方法包括深度玻耳茲曼機使用, 自動編碼器、遞歸神經網絡、Log-bilinear神經語言模型和主題模型。幾種對圖片和標識雙向排序的方法也被提出,基於內核CCA和標準化的CCA依賴樹的遞歸網絡。從架構的角度來看,咱們的編碼器-解碼器模型是最類似的,提出了一個兩步的嵌入和生成過程的語義分析。
1.2生成圖像的描述
咱們小組在一塊兒的方法來生成三種類型的方法,在這裏每個更詳細的描述:數據庫
基於模板的方法。基於模板的方法包括填寫句子模板,如三元組(triplet是三元組抽象數據類型的定義),基於目標檢測和空間關係。雖然這些方法能夠產生精確的描述,他們每每更多的在本質上是「呆板的(像機器人的)」並且不適用於流動性和經過人爲寫的標識。網絡
成分爲基礎的方法。這些方法的目的是利用現有的圖像描述數據庫中提取相關的標識成分並組在一塊兒產生新的描述。這些方法的優勢是,它們容許一個更普遍和更富有表現力的類標識,這是和人類同樣更加流暢的基於模板的方法。架構
神經網絡方法。這些方法的目的是產生描述,經過採樣的條件神經語言模型。在這方面的初步工做,基於多模態神經語言模型[ 2 ],生成的標識經過在特徵向量機從深度卷積網絡輸出。這些想法最近擴展到多模式遞歸網絡並有顯著的改善[ 7 ]。在本文的產品說明中描述的方法至少在質量上與使用最早進技術基於成分的方法相提並論。框架
圖2:編碼器:深度卷積網絡(CNN)和長短時間記憶遞歸神經網絡(LSTM)對圖像-句子嵌入的學習。解碼器:一種新的神經語言模型,將結構和內容向量結合起來,在一個時間序列中生成單詞。
一直困擾着描述生成系統的問題是關於評價的問題。然而在過去的使用中Bleu and Rouge已經認爲,這樣的自動化評價方法是不可靠的並且和人的判斷不匹配。這些做者反而建議,對圖片和標識的排序問題能夠用一個代理來產生。因爲任何一代系統都須要一個評分函數來訪問,如何更好的使一個標識和圖像匹配,優化這項任務,天然要進行一代一代的改進。許多最近的方法已經使用這種方法進行評估。如何將改進的排序以產生新的描述仍然是一個問題。咱們認爲,編碼器-解碼器方法是很天然適合這實驗框架的。那是由於,編碼器給咱們提供了一種對圖像和字幕排序很好的方法去開發良好的評分函數,而解碼器可使用陳述學習優化評分函數做爲一種生成和評分新描述的方法。分佈式
1.3 機器翻譯的編碼器-解碼器方法
咱們提出的管道,新的標識的生成,在神經機器翻譯(NMT)已經經歷了屢次成功。NMT的目標是開發一個端到端的大型神經網絡翻譯系統,相對於使用神經網絡做爲一個以現有的短語爲基礎附加功能的系統。NMT的方法是基於編解碼原理。也就是說,一個編碼器是用來映射一個英語句子的分佈向量。而後,解碼器在這個向量條件下生成一個從源文本法語的翻譯。現行方法包括使用卷積編碼器和RNN解碼器[ 8 ],RNN編碼器和RNN解碼器[ 9,10 ],LSTM解碼器和LSTM編碼器。雖然仍是個年輕的研究領域,這些方法已經等同於強大的基於短語的系統實現的性能,(用於rescoring也開始改善)。
咱們討論的是,它是天然的圖像標識生成做爲翻譯問題的思考。咱們的目標是把一個圖像轉換成一個描述。這種觀點也被使用,使咱們可以在機器翻譯文學利用現有的思想。此外,還有一種在概念的得分函數天然的對應關係(如何更好的使一個標識和圖像匹配)和比對( 其中的一部分的描述對應的圖像的部分),能夠天然地被利用用於生成描述。函數
2 一種用於排序和生成的編碼器解碼器模型
在這一節中,咱們描述咱們的圖像描述的生成管道。咱們首先回顧LSTM RNNs這是用於編碼句子,其次是如何學習的多模態分佈表示。而後,咱們回顧Log-bilinear神經語言模型[ 29 ],乘法神經語言模型[ 30 ],而後介紹咱們的結構-內容的神經語言模型。
2.1 Long short-term memory RNNs
長短時間記憶LSTM[ 1 ]是一個遞歸神經網絡,採用了內置的內存單元存儲信息和利用遠程上下文。LSTM記憶單元被選通單元所包圍,目的是閱讀,寫做和重置信息。LSTMs已被用於多種任務實現先進的性能,如手寫識別[31],序列生成[32]語音識別[33],機器翻譯等[11]等等。也已經提出了漏失[34]的策略,以防止在深LSTM過分擬合。
設Xt表示在時間t的訓練實例的矩陣。在咱們的例子,Xt是用來表明: 在一批訓練集中每句的第t個字的 字表示矩陣。
讓(It, Ft, Ct, Ot, Mt)表示在時間t時候的 輸入 、忘記、細胞、LSTM的隱藏狀態(input, forget, cell, output and hidden states of the LSTM)。在這項工做中的LSTM對應結構用如下公式實現:
性能
其中,(σ)表示S形的激活函數,(·)表示矩陣乘法和(•)表示組件份量乘法。(原文:where (σ) denotes the sigmoid activation function, (·) indicates matrix multiplication and (•) indicates component-wise multiplication.)學習
2.2多模態分佈表示
假設咱們給出的圖像-描述訓練集是每一個正確描述的圖像對應着一個圖像和一個描述。圖像被表示訓練在ImageNet分類任務的卷積網絡的頂部層(softmax以前)。設D是一個圖像特徵向量的維數(例如4096 alexnet [ 36 ]),K是嵌入空間的維數和 V是在詞的數量。分別是圖像嵌入矩陣和字嵌入矩陣。給定一個圖像描述S = {w1,...,wN} ,word : w1,...,wN,讓{w1,...,wN}, 表明相對應的字表示w1,...,wN(矩陣中的WT 的條目)。一個句子v的表示是LSTM在時間N步隱藏的狀態(例如 向量mt)。咱們注意到,對圖像文本嵌入計算句子表示的其餘方法已被提出,包括依賴關係樹型RNNs和依賴解析包。讓表示一 個圖像特徵向量(圖像對應於描述集S),而且讓是圖像中嵌入。咱們定義了一個得分函數 s(x, v) = x · v,其中 x v 首先按已有單位規範刻度。讓θ表示全部要被學習的參數(WI 和全部的 LSTM權重)。咱們優化了如下成對排序損失:
其中VK 對圖像嵌入X 來說是對比性的(非描述性的)句子,XK反之亦然。咱們全部的實驗中,咱們初始化字嵌入的權重是預先計算的K = 300維向量 ,學習使用連續的詞袋模型[ 37 ]。對比是從訓練集中每一時期隨機抽樣。
2.3 Log-bilinear神經網絡模型
Log-bilinear語言模型(LBL)[ 29 ]是一種肯定性模型,能夠被看做是一個線性隱層前饋神經網絡。對編碼器的來講,在詞彙表中的每一個單詞w表示爲一個k維真實值向量。讓 R 表示一個字表示向量的V ×K矩陣,其中V 是詞彙表的大小。讓(w1, . . . wn−1)是一個n-1個字元組,其中n-1是上下文的大小。 LBL模型進行線性預測下一個字表示爲
其中是 K x K 上下文參數矩陣。所以,是預測表示。給定下的條件機率,
其中是偏置向量。伴隨着隨機梯度降低學習結束。
2.4 Multiplicative 神經語言模型
如今假設咱們給定一個從多模的向量空間的向量,與一個單詞序列。例如,u能夠是圖像,其說明由S.給出的嵌入表示。一個Multiplicative 神經語言模型是 一個從前面詞和向量u中給定的新詞的分佈式模型。乘法模型具備附加屬性,該屬性是用張量代替字嵌入矩陣,其中G是片的數目代替。給定u,咱們能夠計算出一個詞表示矩陣函數 ,即關於u詞表示 用u的各成分的ui 被計算爲加權切片的線性組合。這裏,片的數目G等於K,u的維數。
一般沒有必要使用徹底無分裂張量。如在例子中,咱們從新表明T的三個矩陣如
其中 diag(·) 表示矩陣對角線上的爭論。經過預選擇的一些因素F這些矩陣被參數化。條件向量u被稱爲一個屬性和容許一個條件類似模型使用詞的三階模型:它們做爲一個條件的函數,詞彙的意義是如何變化的。
設表示「摺疊」的V ×K字嵌入矩陣。給定上下文 預測下一個詞表示由下式給出:
其中是對的詞表示的的列 。是 K × K上下文矩陣。給出一個預測下一個的詞表示,輸出的因素是,其中•是一個component-wise的產物。在給定下的條件機率 能夠寫成
其中 表示對應字i 的列。對比 log-bilinear模型,以前的字表示的R矩陣被咱們已經派生的分解張量T所取代。咱們比較乘法模型對加法的變形[ 2 ]並找到一個大型數據集,如SBU標題照片數據集,乘法變形明顯優於其對應的加法。所以,該SC-NLM是來自乘法變形。
圖3:左邊:多模態神經語言模型。中間:結構-內容神經語言模型(SC-NLM)。
右邊:一個SC-NLM 的預測問題。
2.5結構-內容神經語言模型
咱們如今描述結構-內容的神經語言模型。假設,沿着對的描述,咱們給定一個序列的特定字結構變量。縱觀咱們的實驗,每一個對應於詞的語音部分,雖然其餘的可能性能夠被用來代替。給定一個嵌入集u(內容向量),咱們的目標是從前面字上下文和正向的結構上下文建模分佈,其中k是正向上下文大小。圖3給出了一個模型和預測問題的說明。直觀地說,結構變量在生成短語期間有助於指導模型,能夠被認爲是做爲一個軟模板,以幫助模型避免產生語法廢話。此模型的分配與機器翻譯的NNJM類似,在目標語言中前一個單詞的上下文是被預測的單詞,在源語言中的向前的上下文是單詞。
咱們的模型能夠被解釋爲一個乘法的神經語言模型,但在這裏的屬性向量是再也不是u,而是一個加法函數的u和結構變量T。
設是結構變量T的嵌入向量。這些都是從一個可學習的查找表中以相同的方式的詞是得到。咱們介紹一個序列的結構上下文矩陣,這起到一樣的做用做爲字背景矩陣。設表示用於多模向量u一個含量矩陣。組合結構和內容信息的屬性向量被計算爲
其中,是一個ReLU非線性和b是偏移向量。向量如今對先前所述的乘法模型的向量u起着相同的做用而且對模型的剩餘部分保持不變。咱們的實驗用,因素F=100。
SC-NLM是在收集了大量的圖像描述(e.g.Flickr30K)的訓練。有供表明訓練向量u的多種選擇。一個選擇是使用相應的圖像的嵌入。另外一種選擇,這也是咱們採起的方法,是限制用於與LSTM計算的描述S中嵌入向量。這種方法的優點是,SC-NLM能夠被訓練純文本。這讓咱們作出使用大量的單語的文本(例如非圖像字幕)來提升語言模型質量。因爲S的嵌入矢量與所述圖像嵌入共享在一個共同的空間,該模型已經被訓練以後咱們也能夠控制圖像嵌入(例如,在測試時,當沒有可用的描述)。這是一個在明確要求圖像字幕對訓練和強調多通道編碼空間的強度條件下的語言模型有顯着的優點。
因爲篇幅的限制,咱們把咱們的標題生成過程的所有細節留給了補充材料。
表1:Flickr8K實驗。R@K是Recall@K(越高表明越好)。Med r 是中值排序(越低表明越好)。最好的結果總的來講是明顯的,雖然沒有牛津特點的最佳效果是下劃線標註的數。方法前面的標記着對象檢測隨單框架特色一塊兒使用。
3 實驗
3.1 圖像-句子排序
咱們主要的定量結果是創建使用排序的圖像和描述的LSTM句編碼器的有效性。咱們在Flickr8K and Flickr30K 數據集上執行相同的實驗程序。這些數據集分別有8000和30000張圖像,每一個圖像使用5個獨立句子的註解。咱們沒有作任何明確的文本預處理。咱們用兩個卷積網絡架構提取4096維圖像特徵:Toronto ConvNet以及其在2014年ILSVRC分類19層OxfordNet最終比賽第二名。在[ 15 ]的協議中,1000個圖像被用於驗證,1000用於測試和用於訓練。使用Recall@K進行了評估,即圖像的平均數,正確的標識是Top-k排名內的檢索結果(句子,反之亦然)。咱們還公佈了從最接近的基礎真實結果的排名榜的中間排名。經過如下方法比較咱們的結果:
DeViSE。深度視覺語義嵌入模型[ 5 ]提出了一種零拍物體識別的方法,並使用了[15]。在這個模型中,句子被表示爲字嵌入的用途和使用目標函數優化匹配。
SDT-RNN。 語義依賴樹遞歸神經網絡[ 6 ]是用來學習句子表示嵌入到一個共同的圖像句子空間。使用相同的目標。
DeFrag。 深度片斷嵌入[ 15 ]被提出做爲一種替代嵌入全幀圖像特徵,利用從了R-CNN [44] 探測器目標檢測的優點。描述被表示爲一個依賴解析包。它們的目標包括全方位和片斷的目標,由於它們的全方位目標與咱們的目標相匹配。
m-RNN。多模遞歸神經網絡是最近提出的做爲模式之間遇到困惑的橋樑,經過[2]第一個介紹。與全部其餘方法不一樣,m-RNN不使用排名損失,而是優化預測空調的圖像序列中的下一個字的log-likelihood。
咱們的LSTMs使用1層300單元和在[ -0.08,0.08 ]內一致初始化權值。設置α = 0.2時,咱們發現這兩個數據集上表現良好。訓練是使用初始學習率爲1的隨機降低梯度,並呈指數降低。咱們使用Flickr上30K的40 Flickr上8K和100 minibatch大小。採用無動力。相同的超參數被用於OxfordNet實驗。
表2:Flickr30K實驗。R@K是Recall@K(越高表明越好)。Med r 是中值排序(越低表明越好)。最好的結果總的來講是明顯的,雖然沒有牛津特點的最佳效果是下劃線標註的數。方法前面的標記着對象檢測隨單框架特色一塊兒使用。
3.1.1結果
表1和2分別說明了咱們在Flickr8K和Flickr30K上的結果。咱們的模型表現是至關於m-RNN的。一些指標咱們超越或匹配現有的結果而其餘方面m-RNN優於咱們的模型。m-RNN在圖像和句子之間不學習一個明確的嵌入,而依賴於做爲檢索手段上的複雜。學習明確嵌入空間的方法有一個超過基於困惑的檢索方法顯著的速度優點,由於檢索是容易作到從一個查詢向量的數據集中找到存儲嵌入向量的單一乘法矩陣。所以,明確的嵌入方法是更適合擴展到大型數據集。
更爲有趣的是,不管咱們的方法和M-RNN在對總體對象檢測賽過現有的模型。這和[6]矛盾的,其中常常性網絡是表現最差的模型。經過描述和學習有意義的分佈式的句子陳述,這凸顯出了編碼之間的依賴關係的LSTM細胞有效性。對象檢測集成對咱們的框架確定會提升性能,以及容許解釋檢索,就如DeFrag。使用圖像從全部指標有一個顯著性能提高OxfordNet模型結果的特色,在這些評估任務上給出最早進的新號碼。
3.2多模態語言規則
學習 skip-gram [37] 或神經語言模型[45]的字嵌入被證實[12]表現出語言的規律,容許使用這些模型進行類比推理。好比說,「男人」相對「女人」那「國王」是什麼?能夠經過尋找最接近的向量來回答「國王」-「男人」+「女人」。咱們問的一個天然問題是多模態向量空間是否表現出
一樣的現象。一輛藍色汽車的圖像-「藍」+「紅」是接近紅色汽車的圖像嗎?
假設咱們訓練了一個嵌入模型與一個線性編碼器,即 字向量和句向量(其中v和圖像嵌入標準化爲單位長度)。經過咱們上面的例子,讓分別表示爲藍色,紅色和汽車的字嵌入。讓表示藍色和紅色汽車的圖像嵌入。線性編碼器訓練後,模型有了屬性和。以下:
所以給定查詢圖像q,否認詞和確定詞(全部單位規範),咱們尋求一個這樣的圖像:
補充材料包含上述幾種類型的規律和圖像的定性證據。在咱們的例子中,咱們考慮的top-4最近的圖像的檢索。偶爾,咱們觀察到,一個很差的結果卻有可能獲得在top-4之間良好的效果。咱們發現了一個簡單的策略,刪除這些狀況下,首先檢索的頂部附近的圖像,而後根據N個圖像的距離平均值對圖像的進行從新排序。值得注意的是,這些類型的規律性的不能很好用LSTM編碼器觀察,由於句子再也不只是詞語的總和。該線性編碼器是大體至關於在表1和2的DeViSE基準,執行顯着檢索比LSTM編碼器要差。所以,雖然這些規律在學習的多模態向量空間是是有趣的,但在句子和圖像排序方面不是很好。
3.3圖像字幕生成
咱們從SBU標題圖片集中的大約800張圖像生成了圖像描述。這些都是採用目前最早進的組合爲基礎的方法,結果顯示相同的圖像,TreeTalk [27]。咱們LSTM編碼器和SC-NLM解碼器進行訓練,經過串聯的Flickr30K 數據集和最近發佈的微軟COCO數據集[ 46],相結合給出咱們100000多張圖片和500000多個訓練的描述。SBU數據集包含1百萬圖像每個單一的描述,並使用[ 27 ]爲訓練他們的模型。同時SBU數據集較大,註釋描述是嘈雜和更個性化的。
所產生的結果能夠在http://www.cs.toronto.edu/~rk...找到。 對於每個圖像咱們展現了原始的標題,最近鄰句子來自訓練集合,從咱們的模型產生top-5,並從TeleTalk生成的最好的結果樣品。最近的鄰居的句子顯示,咱們的模型並非簡單地學會了去複製訓練數據。咱們所產生的描述能夠說是迄今爲止最好的。
4 討論
當產生描述時,一般是一個小區域的狀況下,在任何給定的時間是相關的。咱們正在開發基於注意力模型,共同窗習到部分標識圖像對齊和使用這些比對來肯定在何出席下,從而動態地修改矢量用於調理解碼器。當產生描述時,一般是一個小區域的狀況下,在任何給定的時間是相關的。咱們正在開發基於注意力模型,共同窗習對準圖像的字幕部分,並使用這些對比來肯定在哪關注下一個,從而動態地修改用於訓練解碼器向量。咱們還計劃嘗試LSTM解碼器以及深度和雙向的LSTM編碼器。
5補充材料:附加實驗和細節
5.1多模態語言規律
圖4:多模態向量空間算法。在線下載的查詢圖像和檢索圖像均來自SBU數據集。
圖5:300維的PCA投影 文字和圖像表示(a)汽車和顏色(b)的天氣和溫度。
圖4說明了使用訓練SBU數據集模型的樣本結果。在線下載的查詢圖像和檢索圖像均來自SBU數據集圖像用於訓練。值得注意的是,所獲得的圖像高度依賴於所使用的圖像的查詢。例如,搜索‘晚上’檢索到的是在夜間拍攝的任意圖像。
另外一方面,一個建築的圖像,主要是由於它的重點將返回夜間圖像時,'白天'是減去和'夜'增長。相似的現象發生在貓,碗和箱子的例子。做爲額外的可視化,在圖5咱們計算的主成分分析預測的汽車及其相應的顏色,以及圖像和天氣出現。這些結果爲咱們提供了強有力的證據,在多模態矢量空間與線性編碼器訓練的規律是明顯的。固然,有意義的結果只可能當(a)該圖像的內容被正確識別,(b)是相關於圖像的減去字和(c)的圖像是存在的,三者知足得到的相應的查詢纔是合理的。
5.2生成圖像描述
在SC-NLM訓練的句子都是來自Flickr30K和微軟的COCO。給定一個圖像,咱們首先映射到多模態空間。從這個嵌入,咱們定義了2套SC-NLM候選訓練向量:
圖像嵌入。嵌入圖像自己。注意的SC-NLM不是訓練圖像而是在圖像上進行訓練由於嵌入空間是多模的。
前N個最近的單詞和句子。首先計算圖像嵌入後,咱們獲得使用餘弦類似性的前N個最近鄰的單詞和訓練句子。 這些檢索被視爲一個‘概念袋'爲此咱們計算一個嵌入向量做爲每一個概念的意義。咱們全部的結果都使用N = 5。
沿着與候選訓練向量,咱們還計算由SC-NLM使用候選的POS序列。對此,咱們從訓練集的長度分別爲4和12之間得到一套全部POS序列。字幕是由第一採樣訓練向量生成,接着抽樣一個POS序列,而後從SC-NLM計算一個MAP估計。咱們產生一個大的候選者列表(在咱們的結果中每一個圖像有1000個)和排名,這些候選者使用一個得分函數。 咱們的評分函數包括2個功能函數:翻譯模型。使用LSTM的候選描述嵌入到多式聯運空間。而後,咱們計算一個轉化得分做爲圖像嵌入和候選描述嵌入的餘弦類似性。這個分數表示候選人的內容和圖像是如何相關的。咱們也不斷增大,這個分數對常常出如今描述的非停用詞的乘法懲罰。語言模型。在大型語料庫和logprobability的計算候選模式下咱們訓練一個Kneser-NEY Trigram模型。這一分數是表示一個英語句子的候選者是如何合理的。文字標識(或字幕)的總成績是翻譯和語言模型的加權總和。因爲定量評價所產生的描述的挑戰,咱們手工調整了權重的定性結果。全部的候選者描述是他們的成績排名,並返回了前5個字幕。