AI從業者須要應用的10種深度學習方法(下)

摘要: 想要了解人工智能,不知道這十種深度學習方法怎麼能行?

6-批量歸一化

固然,包括深度網絡在內的神經網絡須要仔細調整權重初始化和學習參數。批量歸一化有助於讓中國過程更簡單一點。算法

權重問題:網絡

• 不管那種權重的初始化,隨機仍是憑經驗選擇,它們都和學習權重差異很大。考慮一個小批量數據集,在最初的時期,在特徵激活時都會有許多異常值。工具

• 深度神經網絡自己脆弱的,即初始層的微小擾動都會致使後面層很大的變化。學習

在反向傳播期間,這些現象會致使梯度偏移,這意味着在學習權重以產生所需輸出以前,梯度必須補償異常值。這也將致使須要額外的時間來收斂。編碼

clipboard.png

批量歸一化將這些梯度從離散規則化爲正常值,並在小批量的範圍內朝向共同目標(經過歸一化它們)流動。人工智能

學習率問題:一般,學習率保持較小,使得只有一小部分的梯度用來校訂權重,緣由是異常激活的梯度不該該影響已經學習好的權重。經過批量歸一化,這些異常值被激活的可能性就會減小,所以可使用更高的學習率來加速學習過程。spa

7-長短時間記憶:

LSTM網絡具備如下三個方面,使其與遞歸神經網絡中的常規神經元區分開來:3d

一、它能夠控制什麼時候讓輸入進入神經元。blog

二、它能夠控制什麼時候記住上一個時間步驟中計算的內容。遞歸

三、它能夠控制什麼時候將輸出傳遞給下一個時間戳。

LSTM的優勢在於它根據當前輸入自己決定全部這些,以下圖所示:

clipboard.png

當前時間戳處的輸入信號x(t)決定全部上述3個點。輸入門決定點1.遺忘門在點2上作出決定,輸出門在點3上作出決定。輸入門能單獨可以作出這三個決定。這受到了咱們的大腦是如何工做的啓發,而且能夠處理忽然的上下文切換。

8-Skip-gram:

詞嵌入模型的目標是爲了每一個詞彙學習一個高維密集表徵,其中嵌入向量之間的類似性顯示了相應單詞之間的語義或句法類似性。Skip-gram是學習詞嵌入算法的模型。

skip-gram模型(以及許多其餘詞嵌入模型)背後的主要思想以下:若是兩個詞彙有類似的上下文,則它們是類似的。

clipboard.png

換句話說,假設你有一句話,好比「貓是哺乳動物」。若是你使用術語「狗」而不是「貓」,句子仍然是一個有意義的句子。所以在該示例中,「狗」和「貓」能夠共享相同的背景(即「是哺乳動物」)。

基於上述假設,你能夠考慮一個上下文窗口(一個包含k個連續術語的窗口)。而後你應該跳過其中一個單詞,並嘗試學習除了跳過的一個術語以外的全部術語並預測跳過的術語的神經網絡。所以若是兩個單詞在大型語料庫中重複地共享類似的上下文,那些這些術語的嵌入向量將具備類似的向量。

9-連續的詞袋模型(Continuous Bag of Words):

在天然語言處理問題中,咱們但願學習將文檔中的每一個單詞表示爲數字向量,使得出如今類似上下文中的單詞具備彼此接近的向量。在連續詞袋模型中,目標是可以使用圍繞特定單詞的上下文並預測特定單詞。

clipboard.png

咱們經過在一個大型語料庫中抽取大量句子來作到這一點,每次看到一個單詞時,咱們都會使用其上下文單詞。而後咱們將上下文單詞輸入到一個神經網絡中,並預測該上下文中心的單詞。

當咱們有數千個這樣的上下文單詞和中心單詞時,咱們就有一個神經網絡數據集的實例。咱們訓練神經網絡,在通過編碼的隱藏層的輸出表示特定單詞的嵌入。碰巧的是,當咱們在大量句子上訓練時,相似上下文中的單詞會獲得相似的向量。

10-遷移學習:
考慮下圖像是如何經過卷積神經網絡的。假設你有一個圖像,你應用卷積,你獲得像素組合做爲輸出。若是碰到了邊緣,則再次應用卷積,因此如今輸出是邊或線的組合。而後再次應用卷積,此時的輸出將是線的組合,依此類推。你能夠將其視爲每一個層尋找特定模式。神經網絡的最後一層每每變得很是專業。若是你正在使用ImageNet,那麼你的網絡最後一層將尋找兒童或狗或飛機或其餘什麼。再後退幾層你可能會看到網絡正在尋找眼睛或耳朵或嘴或輪子。

clipboard.png

深度CNN中的每一個層逐漸創建了更高和更高級別的特徵表徵。最後幾層每每專一於你輸入模型的任何數據。另外一方面,早期的圖層更通用,是在更大類的圖片中找到不少簡單的模式。

遷移學習是指你在一個數據集上訓練CNN,切斷最後一層,在其餘不一樣的數據集上從新訓練模型的最後一層。直觀地說,你正在從新訓練模型以識別不一樣的更高級別的功能。所以,模型訓練的時間會大大減小,所以當你沒有足夠的數據或者訓練所需的太多資源時,遷移學習是一種有用的工具。

本文僅顯示這些方法的通常概述。我建議閱讀如下文章以得到更詳細的解釋:

• Andrew Beam的「深度學習101」;

• 安德烈庫林科夫的「神經網絡與深度學習簡史」;

• Adit Deshpande的「理解卷積神經網絡的初學者指南」;

• 克里斯奧拉的「理解LSTM網絡」;

• Algobean的「人工神經網絡」;

• Andrej Karpathy的「迴歸神經網絡的不合理有效性」;

深度學習是很是注重技術實踐的。本文中的每一個新想法都沒有太多具體的解釋。對於大多數新想法都附帶了實驗結果來證實它們可以運做。深度學習就像玩樂高,掌握樂高與任何其餘藝術同樣具備挑戰性,但相比之下入門樂高是容易的。

本文做者:【方向】

閱讀原文

本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索