1:特徵歸一化
場景描述:
爲了消除數據特徵之間的量綱影響,咱們須要對特徵進行歸一化處理,使得不一樣指標之間具備可比性。例如,分析一我的的身高和體重對健康的影響,若是使用米(m )和千克(kg)做爲單位,那麼身高特徵會在 1.6 1.8m 的數值範圍內,體重特徵會在50 100kg 的範圍內,分析出來的結果顯然會傾向於數值差異比較大的體重特徵。想要獲得更爲準確的結果,就須要進行特徵歸一化 (Normalization)處理,使各指標處於同一數值量級,以便進行分析。
算法
問題1:爲何須要對數值類型的特徵作 歸一化?
對數值類型的特徵作歸一化能夠將全部的特徵都統一到一個大體相
同的數值區間內。最經常使用的方法主要有如下兩種。
(1)線性函數歸一化(Min-Max Scalling )。它對原始數據進行
線性變換,使結果映射到 [0,1] 的範圍,實現對原始數據的等比縮放。
歸一化公式以下
X norm = X − X min X max − X min X_{\text {norm }}=\frac{X-X_{\min }}{X_{\max }-X_{\min }} Xnorm =Xmax−XminX−Xmin
其中 X 爲原始數據,X_max、X_min 分別爲數據最大值和最小值。
(2)零均值歸一化(Z-Score Normalization)。它會將原始數
網絡
據映射到均值爲 0、標準差爲 1 的分佈上。具體來講,假設原始特徵的
均值爲 μ \mu μ 、標準差爲 σ , \sigma, σ, 那麼歸一化公式定義爲
z = x − μ σ z=\frac{x-\mu}{\sigma} z=σx−μ
爲何須要對數值型特徵作歸一化呢?咱們不妨藉助隨機梯度降低
的實例來講明歸一化的重要性。假設有兩種數值型特徵, x, 的取值範圍 [ 0 , 10 ] , x 2 [0,10], x_{2} [0,10],x2 的取值範圍爲 [ 0 , 3 ] , [0,3], [0,3], 因而能夠構造一個目標函數符合圖 1.1(a)中的等值圖。在學習速率相同的狀況下,x, 的更新速度會大於 x 2 , x_{2}, x2, 須要較多的迭代才能找到最優解。若是將 x 1 x_{1} x1 和 x 2 x_{2} x2 歸一化到相同的數值區間後,優化目標的等值圖會變成圖 1.1(b)中的圓形,x_和 x 2 x_{2} x2 的更新速度變得更爲一致,容易更快地經過梯度降低找到最優解。
固然,數據歸一化並非萬能的。在實際應用中,經過梯度降低法
求解的模型一般是須要歸一化的,包括線性迴歸、邏輯迴歸、支持向量機、神經網絡等模型。但對於決策樹模型則並不適用,以 C4.5 爲例,決策樹在進行節點分裂時主要依據數據集 D 關於特徵 x x x 的信息增益比,而信息增益比跟特徵是否通過歸一化是無關的,由於歸一化並不會改變樣本在特徵 x 上的信息增益。
機器學習
2:類別型特徵
場景描述
類別型特徵(Categorical Feature ) 主要是指性別(男、女)、血型(A、B、AB、O)等只在有限選項內取值的特徵。類別型特徵原始輸入一般是字符串形式,除了決策樹等少數模型能直接處理字符串形式的輸入,對於邏輯迴歸、支持向量機等模型來講,類別型特徵必須通過處理轉換成數值型特徵才能正確工做。
函數
涉及到的知識點:學習
- 序號編碼(Ordinal Encoding)
- 獨熱編碼(One-hot Encoding)
- 二進制編碼(Binary Encoding )
問題:在對數據迦行預處理時,應該怎樣處理類別型特徵?測試
序號編碼
序號編碼一般用於處理類別間具備大小關係的數據。例如成績,可
以分爲低、中、高三檔,而且存在「高>中>低」的排序關係。序號
編碼會按照大小關係對類別型特徵賦予一個數值 ID,例如高表示爲 三、中表示爲 二、低表示爲 1,轉換後依然保留了大小關係。
優化
獨熱編碼
獨熱編碼一般用於處理類別間不具備大小關係的特徵。例如血型,一共有 4 個取值(A 型血、B 型血、AB 型血、O 型血),獨熱編碼會把血型變成一個 4 維稀疏向量,A 型血表示爲(1, 0, 0, 0 ),B 型血表示爲 ( 0 , 1 , 0 , 0 ) , (0,1,0,0), (0,1,0,0), AB 型表示爲 ( 0 , 0 , 1 , 0 ) , (0,0,1,0), (0,0,1,0), O 型血表示爲( 0 , 0 , 0,0, 0,0, 0, 1 ) 。對於類別取值較多的狀況下使用獨熱編碼須要注意如下問題。
(1)使用稀疏向量來節省空間。在獨熱編碼下,特徵向量只有某
一維取值爲 1,其餘位置取值均爲 0。所以能夠利用向量的稀疏表示有效地節省空間,而且目前大部分的算法均接受稀疏向量形式的輸入。
(2)配合特徵選擇來下降維度。高維度特徵會帶來幾方面的問題。
一是在 K 近鄰算法中,高維空間下兩點之間的距離很可貴到有效的衡量;
二是在邏輯迴歸模型中,參數的數量會隨着維度的增高而增長,容易引發過擬合問題; 三是一般只有部分維度是對分類、預測有幫助,所以能夠考慮配合特徵選擇來下降維度。
編碼
二進制編碼
二進制編碼主要分爲兩步,先用序號編碼給每一個類別賦予一個類別
ID,而後將類別 ID 對應的二進制編碼做爲結果。以 A、B、AB、O
血型爲例,表 1.1 是二進制編碼的過程。A 型血的 ID 爲 1,二進制表示爲 001 ; B 型血的 ID 爲 2,二進制表示爲 010; 以此類推能夠獲得AB 型血和 O 型血的二進制表示。能夠看出,二進制編碼本質上是利用二進制對 ID 進行哈希映射,最終獲得 0/1 特徵向量,且維數少於獨熱編碼,節省了存儲空間。
除上述幾種編碼方式外,還能夠進一步瞭解真他的編碼方式,好比 Helmert Contrast 、 Sum Contrast 、 PolynomialContrast 、 Backward Difference Contrast 等 。
spa
3:高維組合特徵的處理
問題:什麼是組合特徵?如何處理高維 難度:食食 會食食
組合特徵?
3d
爲了提升複雜關係的擬合能力,在特徵工程中常常會把一階離散特
徵兩兩組合,構成高階組合特徵。以廣告點擊預估問題爲例,原始數據有語言和類型兩種離散特徵,表 1.2 是語言和類型對點擊的影響。爲了提升擬合能力,語言和類型能夠組成二階特徵,表 1.3 是語言和類型的組合特徵對點擊的影響。
以邏輯迴歸爲例,假設數據的特徵向量爲 X = ( x 1 , x 2 , … , x k ) , X=\left(x_{1}, x_{2}, \ldots, x_{k}\right), X=(x1,x2,…,xk), 則有
Y = sigmoid ( ∑ i ∑ j w i j < x i , x j > ) Y=\operatorname{sigmoid}\left(\sum_{i} \sum_{j} w_{i j}<x_{i}, x_{j}>\right) Y=sigmoid(i∑j∑wij<xi,xj>)
其中 < x i , x j > <x_{i}, x_{j}> <xi,xj> 表示 x i x_{i} xi 和 x j x_{j} xj 的組合特徵, w i j w_{i j} wij 的維度等於 ∣ x i ∣ ⋅ ∣ x j ∣ , ∣ x i ∣ \left|x_{i}\right| \cdot\left|x_{j}\right|,\left|x_{i}\right| ∣xi∣⋅∣xj∣,∣xi∣ 和 ∣ x j ∣ \left|x_{j}\right| ∣xj∣ 分別表明第 i i i 個特徵和第 j j j 個特徵不一樣取值的個數。在表 1.3 的廣告點擊預測問題中, w w w 的維度是 2 * 2=4(語言取值爲中文或英文兩種、類型的取值爲電影或電視劇兩種 )。這種特徵組合看起來是沒有任何問題的,但當引入 ID 類型的特徵時,問題就出現了。以推薦問題爲例,表1.4 是用戶 ID 和物品 ID 對點擊的影響,表 1.5 是用戶 ID 和物品 ID的組合特徵對點擊的影響。
若用戶的數量爲 m、物品的數量爲 n,那麼須要學習的參數的規模
爲 m × n ∘ m \times n_{\circ} m×n∘ 在互聯網環境下,用戶數量和物品數量均可以達到千萬量級,幾乎沒法學習 m × n m \times n m×n 規模的參數。在這種狀況下,一種行之有效的方法是將用戶和物品分別用 k k k 維的低維向量表示( k ≪ m , k ≪ n k \ll m, k \ll n k≪m,k≪n )
Y = sigmoid ( ∑ i ∑ j w i j < x i , x j > ) Y=\operatorname{sigmoid}\left(\sum_{i} \sum_{j} w_{i j}<x_{i}, x_{j}>\right) Y=sigmoid(i∑j∑wij<xi,xj>)
其中 w i j = x i ′ ⋅ x j ′ , x i ′ w_{i j}=x_{i}^{\prime} \cdot x_{j}^{\prime}, \quad x_{i}^{\prime} wij=xi′⋅xj′,xi′ 和 x j ′ x_{j}^{\prime} xj′ 分別表示 x i x_{i} xi 和 x j x_{j} xj 對應的低維向量。在表 1.5 的推薦問題中,須要學習的參數的規模變爲 m × k + n × k 。 m \times k+n \times k 。 m×k+n×k。 熟悉推薦算法的很快能夠看出來,這其實等價於矩陣分解。因此,這裏也提供了另外一個理解推薦系統中矩陣分解的思路。
4:組合特徵
場景描述:
上一節介紹瞭如何利用降維方法來減小兩個高維特徵組合後須要學習的參數。可是在不少實際問題中,咱們經常須要面對多種高維特徵。若是簡單地兩兩組合,依然容易存在參數過多、過擬合等問題,並且並非全部的特徵組合都是有意義的。所以,須要一種有效的方法來幫助咱們找到應該對哪些特徵進行組合。
問題:怎樣有效地找到組合特徵?
如下介紹一種基於決策樹的特徵組合尋找方法。以點擊預測問題爲例,假設原始輸入特徵包含年齡、性別、用戶類型(試用期、付費)、物品類型(護膚、食品等)4 個方面的信息,而且根據原始輸入和標籤(點擊 / 未點擊)構造 出了決策樹,如圖1.2所示。
因而,每一條從根節點到葉節點的路徑均可以當作一種特徵組合的
方式。具體來講,就有如下 4 種特徵組合的方式。
(1 ) 「年齡 < = 35 " <=35 " <=35"
且「性別 = 女」。
(2)「年齡 < = 3 5 ′ ′ <=35^{\prime \prime} <=35′′ 且「物品類別 = = = 護膚"
(3)「用戶類型 = 付費」且「物品類型 = = = 食品」
(4)「用戶類型 = 付費」且「年齡 < = 40 " <=40 " <=40"
表 1. 6 是兩個樣本信息,那麼第 l 個樣本按照上述 4 個特徵組合就
能夠編碼爲(1,1,0,0) 由於 同時知足(1) (2),但不知足(3)(4)。同理 1 第 2 個樣本能夠編碼爲(0,0,1,1),由於它同時知足(3)(4),但不知足(1) (2)
給定原始輸入該如何有效地構造決策樹呢?能夠採用梯度提高決策樹,該方法的思想是每次都在以前構建的決策樹的殘差上構建下一棵決策樹。
文本表示模型
場影描述
文本是一類很是重要的非結構化數據,如何表示文本數據一直是機器學習領域的一個重要研究方向。
涉及到的知識點:詞袋模型(Bag of Words ),TF-IDF(Term Frequency-Inverse Document Frequency ),主題模型(Topic Model),詞嵌入模型(Word Embedding )
問題:有哪些文本表示模型?什麼優缺點?
- 詞袋模型
最基礎的文本表示模型是詞袋模型。顧名思義,就是將每篇文章當作一袋子詞,並忽略每一個詞出現的順序。具體地說,就是將整段文本以維表明一個單詞,而該維對應的權重則反映了這個詞在原文章中的重要程度。經常使用 TF-IDF 來計算權重,公式爲
T F − I D F ( t , d ) = T F ( t , d ) × IDF ( t ) \mathrm{TF}-\mathrm{IDF}(t, d)=\mathrm{TF}(t, d) \times \operatorname{IDF}(t) TF−IDF(t,d)=TF(t,d)×IDF(t)
其中 TF ( t , d ) (t, d) (t,d) 爲單詞 t t t 在文檔 d d d 中出現的頻率,IDF( t t t ) 是逆文檔頻率,用來衡量單詞 t t t 對錶達語義所起的重要性,表示爲
IDF ( t ) = log 文章總數 包含單詞 t 的文章總數 + 1 \operatorname{IDF}(t)=\log \frac{\text { 文章總數 }}{\text { 包含單詞}_{t} \text {的文章總數}+1} IDF(t)=log 包含單詞t的文章總數+1 文章總數
直觀的解釋是,若是一個單詞在很是多的文章裏面都出現,那麼它多是一個比較通用的詞彙,對於區分某篇文章特殊語義的貢獻較小,所以對權重作必定懲罰。
將文章進行單詞級別的劃分有時候並非一種好的作法,好比英
文中的 natural language processing(天然語言處理)一詞,若是
將 natural,language,processing 這 3 個詞拆分開來,所表達的
含義與三個詞連續出現時截然不同。一般,能夠將連續出現的 n 個詞 ( n ⩽ N ) (n \leqslant N) (n⩽N) 組成的詞組(N-gram )也做爲一個單獨的特徵放到向量表示中去,構成 N-gram 模型。另外,同一個詞可能有多種詞性變化,卻具備類似的含義。在實際應用中,通常會對單詞進行詞幹抽取(Word Stemming )處理,即將不一樣詞性的單詞統一成爲同一詞幹的形式。
-
主題模型
主題模型用於從文本庫中發現有表明性的主題(獲得每一個主題上面詞的分佈特性 ),而且可以計算出每篇文章的主題分佈。 -
詞嵌入與深度學習模型
詞嵌入是一類將詞向量化的模型的統稱,核心思想是將每一個詞都映射成低維空間(一般 K = 50 ∼ 300 K=50 \sim 300 K=50∼300 維 ) 上的一個稠密向量(DenseVector ) 。K維空間的每一維也能夠看做一個隱含的主題,只不過不像主題模型中的主題那樣直觀。
因爲詞嵌入將每一個詞映射成一個 K 維的向量,若是一篇文檔有 N 個詞,就能夠用一個 N * K 維的矩陣來表示這篇文檔,可是這樣的表示過於底層。在實際應用中,若是僅僅把這個矩陣做爲原文本的表示特徵輸入到機器學習模型中,一般很可貴到使人滿意的結果。所以,還須要在此基礎之上加工出更高層的特徵。在傳統的淺層機器學習模型中,一個好的特徵工程每每能夠帶來算法效果的顯著提高。而深度學習模型正好爲咱們提供了一種自動地進行特徵工程的方式,模型中的每一個隱層均可以認爲對應着不一樣抽象層次的特徵。從這個角度來說,深度學習模型可以戰勝淺層模型也就瓜熟蒂落了。卷積神經網絡和循環神經網絡的結構在文本表示中取得了很好的效果,主要是因爲它們可以更好地對文本進行建模,抽取出一些高層的語義特徵。與全鏈接的網絡結構相比,卷積神經網絡和循環神經網絡一方面很好地抓住了文本的特性,另外一方面又減小了網絡中待學習的參數,提升了訓練速度,而且下降了過擬合的風險。
6:Word2Vec
場景描述
谷歌 2013 年提出的 Word2Vec 是目前最經常使用的詞嵌入模型之一。Word2Vec 實際是一種淺層的神經網絡模型,它有兩種網絡結構,分別是 CBOW(Continues Bag of Words )和 Skip-gram。
涉及到的知識點:Word2Vec ,隱狄利克雷模型( LDA) , CBOW, Skip-gram
問題:Word2Vec 是如何工做的?芭 難度:食食食 會食
和 LOA 有什麼區別與聯繫?
CBOW 的目標是恨據上下艾出現的詞語來預測當前i司的生成慨率,如圖 1.3 ( a )所示 ; 而 Skip-gram 是根據當前詞來預測上下文中詞的生成機率, 如圄 1.3 ( b ) 所示
其中 w ( t ) w(t) w(t) 是當前所關注的詞, w ( t − 2 ) , w ( t − 1 ) , w ( t + 1 ) , w ( t + 2 ) w(t-2), w(t-1), w(t+1), w(t+2) w(t−2),w(t−1),w(t+1),w(t+2)
是上下文中出現的詞。這裏先後滑動窗口大小均設爲 2。
CBOW 和 Skip-gram 均可以表示成由輸入層(Input)、映射層
(Projection)和輸出層(Output)組成的神經網絡。
輸入層中的每一個詞由獨熱編碼方式表示,即全部詞均表示成一個 N
維向量,其中 N 爲詞彙表中單詞的總數。在向量中,每一個詞都將與之對應的維度置爲 1,其他維度的值均設爲 0。
在映射層(又稱隱含層)中,K 個隱含單元(Hidden Units)的取 值能夠由 N 維輸入向量以及鏈接輸入和隱含單元之間的 N × K N \times K N×K 維權重矩陣計算獲得。在 CBOW 中,還須要將各個輸入詞所計算出的隱含單元求和。同理,輸出層向量的值能夠經過隱含層向量(K 維),以及鏈接隱含層和輸出層之間的 K × N K \times N K×N 維權重矩陣計算獲得。輸出層也是一個 N N N 維向量,每維與詞彙表中的一個單詞相對應。最後,對輸出層向量應用Softmax 激活函數,能夠計算出每一個單詞的生成機率。Softmax 激活函數的定義爲
P ( y = w n ∣ x ) = e x n ∑ k = 1 N e x k P\left(y=w_{n} \mid x\right)=\frac{\mathrm{e}^{x_{n}}}{\sum_{k=1}^{N} \mathrm{e}^{x_{k}}} P(y=wn∣x)=∑k=1Nexkexn
其中 x 表明 N N N 維的原始輸出向量,x_爲在原始輸出向量中,與單詞 w n w_{n} wn所對應維度的取值。
其中 x 表明 N N N 維的原始輸出向量, x n x_{n} xn 爲在原始輸出向量中,與單詞 w n w_{n} wn所對應維度的取值。接下來的任務就是訓練神經網絡的權重,使得語料庫中全部單詞的總體生成機率最大化。從輸入層到隱含層須要一個維度爲 N\timesK 的權重矩陣,從隱含層到輸出層又須要一個維度爲 K\timesN 的權重矩陣,學習權重能夠用反向傳播算法實現,每次迭代時將權重沿梯度更優的方向進行一小步更新。可是因爲 Softmax 激活函數中存在歸一化項的緣故,推導出來的迭代公式須要對詞彙表中的全部單詞進行遍歷,使得每次迭代過程很是緩慢,由此產生了 Hierarchical Softmax 和 Negative Sampling 兩種改進方法,有興趣的讀者能夠參考 Word2Vec 的原論文。訓練獲得維度爲 N × K N \times K N×K 和 K × N K \times N K×N 的兩個權重矩陣以後,能夠選擇其中一個做爲 N N N 個詞的 K K K 維向量表示。
談到 Word2Vec 與 LDA 的區別和聯繫,首先,LDA 是利用文檔
中單詞的共現關係來對單詞按主題聚類,也能夠理解爲對「文檔 - 單詞」矩陣進行分解,獲得「文檔 - 主題」和「主題 - 單詞」兩個機率分佈。而 Word2Vec 實際上是對「上下文 - 單詞」矩陣進行學習,其中上下文由周圍的幾個單詞組成,由此獲得的詞向量表示更多地融入了上下文共現的特徵。也就是說,若是兩個單詞所對應的 Word2Vec 向量類似度較高,那麼它們極可能常常在一樣的上下文中出現。須要說明的是,上述分析的是 LDA 與 Word2Vec 的不一樣,不該該做爲主題模型和詞嵌入兩類方法的主要差別。主題模型經過必定的結構調整能夠基於「上下文 - 單詞」"矩陣進行主題推理。一樣地,詞嵌入方法也能夠根據「文檔 - 單詞」矩陣學習出詞的隱含向量表示。主題模型和詞嵌入兩類方法最大的不一樣其實在於模型自己,主題模型是一種基於機率圖模型的生成式模型,其似然函數能夠寫成若干條件機率連耕的形式,其中包括須要推測的隱含變量(即主題); 而詞嵌入模型通常表達爲神經網絡的形式,似然函數定義在網絡的輸出之上,須要經過學習網絡的權重以獲得單詞的稠密向量表示。
7:圖像數據不足時的處理方法
場景描述
在機器學習中,絕大部分模型都須要大量的數據進行訓練和學習(包括有監督學習和無監督學習),然而在實際應用中常常會遇到訓練數據不足的問題。好比圖像分類,做爲計算機視覺最基本的任務之一,其目標是將每幅圖像劃分到指定類別集合中的一個或多個類別中。當訓練一個圖像分類模型時,若是訓練樣本比較少,該如何處理呢?
涉及到的知識點:遷移學習( Transfer Learning ),生成對抗網絡,圖像處理,上採樣技術,數據擴充
問題:在圖像分類任務中,訓練數據不足會帶來什麼問題?如何緩解數據量不足帶來的問題?
一個模型所能提供的信息通常來源於兩個方面,一是訓練數據中蘊
含的信息; 二是在模型的造成過程當中(包括構造、學習、推理等),人們提供的先驗信息。當訓練數據不足時,說明模型從原始數據中獲取的信息比較少,這種狀況下要想保證模型的效果,就須要更多先驗信息。先驗信息能夠做用在模型上,例如讓模型採用特定的內在結構、條件假設或添加其餘一些約束條件; 先驗信息也能夠直接施加在數據集上,即根據特定的先驗假設去調整、變換或擴展訓練數據,讓其展示出更多的、更有用的信息,以利於後續模型的訓練和學習。
具體到圖像分類任務上,訓練數據不足帶來的問題主要表如今過擬合方面,即模型在訓練樣本上的效果可能不錯,但在測試集上的泛化效果不佳。根據上述討論,對應的處理方法大體也能夠分兩類,一是基於模型的方法,主要是採用下降過擬合風險的措施,包括簡化模型(如將非線性模型簡化爲線性模型)、添加約束項以縮小假設空間(如 L1/L2正則項)、集成學習、Dropout 超參數等; 二是基於數據的方法,主要經過數據擴充(Data Augmentation),即根據一些先驗知識,在保持特定信息的前提下,對原始數據進行適當變換以達到擴充數據集的效果。具體到圖像分類任務中,在保持圖像類別不變的前提下,能夠對訓練集中的每幅圖像進行如下變換。
(1)必定程度內的隨機旋轉、平移、縮放、裁剪、填充、左右翻
轉等,這些變換對應着同一個目標在不一樣角度的觀察結果。
(2)對圖像中的像素添加噪聲擾動,好比椒鹽噪聲、高斯白噪聲等。
(3)顏色變換。例如,在圖像的 RGB 顏色空間上進行主成分分
析,獲得 3 個主成分的特徵向量 p 1 , p 2 , p 3 p_{1}, p_{2}, p_{3} p1,p2,p3 及其對應的特徵值 λ 1 , λ 2 , λ 3 , \lambda_{1}, \lambda_{2}, \lambda_{3}, λ1,λ2,λ3, 而後在每一個像素的 RGB 值上添加增量 [ p 1 , p 2 , p 3 ] ⋅ [ α 1 λ 1 , α 2 λ 2 , α 3 λ 3 ] T , \left[p_{1}, p_{2}, p_{3}\right] \cdot\left[\alpha_{1} \lambda_{1}, \alpha_{2} \lambda_{2}, \alpha_{3} \lambda_{3}\right]^{\mathrm{T}}, [p1,p2,p3]⋅[α1λ1,α2λ2,α3λ3]T, 其中 α 1 , α 2 , α 3 \alpha_{1}, \alpha_{2}, \alpha_{3} α1,α2,α3 是均值爲 0 、方差較小的高斯分佈隨機數。
(4)改變圖像的亮度、清晰度、對比度、銳度等。
除了直接在圖像空間進行變換,還能夠先對圖像進行特徵提取,然 後在圖像的特徵空間內進行變換,利用一些通用的數據擴充或上採樣技術,例如 SMOTE(Synthetic Minority Over-sampling Technique )算法。拋開上述這些啓發式的變換方法,使用生成模型也能夠合成一些新樣本,例如當今很是流行的生成式對抗網絡模型。此外,藉助已有的其餘模型或數據來進行遷移學習在深度學習中也十分常見。例如,對於大部分圖像分類任務,並不須要從頭開始訓練模型,而是借用一個在大規模數據集上預訓練好的通用模型,並在針對目標任務的小數據集上進行微調(fine-tune),這種微調操做就能夠當作是一種簡單的遷移學習。