卷積在深度學習中的做用(轉自http://timdettmers.com/2015/03/26/convolution-deep-learning/)

卷積多是如今深刻學習中最重要的概念。卷積網絡和卷積網絡將深度學習推向了幾乎全部機器學習任務的最前沿。可是,卷積如此強大呢?它是如何工做的?在這篇博客文章中,我將解釋卷積並將其與其餘概念聯繫起來,以幫助您完全理解卷積。git

 

已經有一些關於深度學習卷積的博客文章,但我發現他們都對沒必要要的數學細節高度混淆,這些細節沒有以任何有意義的方式進一步理解。這篇博客文章也會有不少數學細節,但我會從概念的角度來看待他們,在這裏我用每一個人都應該可以理解的圖像表示底層數學。這篇博文的第一部分是針對任何想要了解深度學習中卷積和卷積網絡的通常概念的人。本博文的第二部分包含高級概念,旨在進一步提升深度學習研究人員和專家對卷積的理解。github

什麼是卷積?

這整篇博文都將回答這個問題,可是首先了解這個問題的方向可能會很是有用,那麼什麼是粗略的卷積?算法

您能夠將卷積想象爲信息的混合。想象一下,有兩個桶裝滿了信息,這些信息被倒入一個桶中,而後按照特定的規則混合。每桶信息都有本身的配方,用於描述一個桶中的信息如何與另外一個桶混合。所以,卷積是一個有序的過程,兩個信息來源交織在一塊兒。網絡

卷積也能夠用數學來描述,事實上,它是一種數學運算,如加法,乘法或導數,雖然這種操做自己很複雜,但它能夠用來簡化更復雜的方程。卷積在物理學和工程學中用於簡化這種複雜的方程,第二部分 - 通過簡短的卷積數學發展 - 咱們將把這些科學領域和深度學習之間的想法聯繫起來並整合起來,以更深刻地理解卷積。但如今咱們將從實際的角度來看卷積。架構

咱們如何對圖像應用卷積?

當咱們對圖像應用卷積時,咱們將其應用於兩個維度 - 即圖像的寬度和高度。咱們混合兩個信息桶:第一個桶是輸入圖像,它總共有三個像素矩陣 - 每一個矩陣用於紅色,藍色和綠色通道; 一個像素由每一個顏色通道中0到255之間的整數值組成。第二個桶是卷積核,一個浮點數的單個矩陣,其中模式和數字的大小能夠被認爲是如何在卷積操做中將輸入圖像與內核交織在一塊兒的配方。內核的輸出是通過改變的圖像,在深度學習中常常被稱爲特徵圖。每一個顏色通道都會有一個功能圖。dom

卷積

圖像與邊緣檢測器卷積核的卷積。來源:2機器學習

咱們如今經過卷積執行這兩個信息的實際交織。應用卷積的一種方法是從內核大小的輸入圖像中獲取圖像補丁 - 這裏咱們有一個100×100圖像和一個3×3內核,因此咱們須要3×3補丁 - 而後執行與圖像補丁和卷積核的元素明智的乘法。這個乘法的和而後致使   特徵映射的一個像素。在計算了特徵映射的一個像素以後,圖像塊提取器的中心將一個像素滑動到另外一個方向,而且重複該計算。當以這種方式計算了特徵映射的全部像素時,計算結束。如下gif中的一個圖像補丁說明了此過程。ide

經過操做圖像補丁來計算卷積。

對結果特徵映射的一個像素進行卷積運算:原始圖像(RAM)的一個圖像塊(紅色)與內核相乘,而且其總和被寫入特徵映射像素(緩衝區RAM)。GIF格倫·威廉姆森誰運行一個網站,具備許多技術GIF格式。函數

正如你所看到的,還有一個規範化過程,其中輸出值經過內核的大小(9)進行歸一化; 這是爲了確保圖片和特徵地圖的總強度保持不變。佈局

爲何圖像的卷積有用於機器學習?

圖像中可能存在不少使人分心的信息,這與咱們試圖實現的目標無關。一個很好的例子就是我Burda Bootcamp中Jannek Thomas一塊兒完成的一個項目Burda Bootcamp是一個快速原型開發實驗室,學生在黑客馬拉松式的環境中工做,以很是短的時間間隔創造技術上有風險的產品。與個人9位同事一塊兒,咱們在2個月內建立了11款產品。在一個項目中,我想用深度自動編碼器創建時尚圖像搜索:您上傳時尚物品的圖像,自動編碼器應找到包含類似風格衣服的圖像。

如今,若是你想區分衣服的風格,衣服的顏色不會那麼有用; 像品牌標誌等微小的細節也不是很重要。最重要的多是衣服的形狀。一般,襯衫的形狀與襯衫,外套或褲子的形狀很是不一樣。所以,若是咱們能夠過濾圖像中沒必要要的信息,那麼咱們的算法不會被顏色和品牌標誌等沒必要要的細節分散注意力。咱們能夠經過使用內核來卷積圖像來輕鬆實現這一點。

個人同事Jannek Thomas對數據進行了預處理,並應用了一個Sobel邊緣檢測器(相似於上面的內核)將除圖像外形外的全部圖像都濾除掉 - 這就是爲何卷積應用一般稱爲濾波,內核一般被稱爲過濾器(這個過濾過程的更精確的定義將在下面進行說明)。若是您想要區分不一樣類型的衣服,因爲只保留相關的形狀信息,因此從邊緣檢測器內核生成的特徵圖將很是有用。

autoencoder_fashion_features_and_results

Sobel過濾了訓練過的自動編碼器的輸入和結果:左上角的圖像是搜索查詢,其餘圖像是具備自動編碼器代碼的結果,該代碼與經過餘弦類似度測量的搜索查詢最類似。你會發現autoencoder真的只是看着搜索查詢的形狀而不是它的顏色。可是,您也能夠看到,對於穿着衣服的人(第5列)的圖像以及對衣架形狀(第4列)敏感,此步驟不起做用。

咱們能夠更進一步:有幾十個不一樣的內核能夠生成許多不一樣的特徵映射,例如使圖像更清晰(更多細節),或模糊圖像(更少的細節),而且每一個特徵映射能夠幫助咱們的算法在它的任務上作得更好(細節,好比夾克上的3而不是2個按鈕可能很重要)。

使用這種過程 - 輸入,轉換輸入並將轉換後的輸入提供給算法 - 稱爲特徵工程。特徵工程是很是困難的,只有不多的資源能夠幫助你學習這個技巧。所以,不多有人可以巧妙地將特徵工程應用於普遍的任務。特徵工程是 - 手下來 - 在Kaggle比賽中得到好成績的最重要的技能特徵工程是如此的困難,由於對於每種類型的數據和每種類型的問題,不一樣的特徵都作得很好:圖像任務的特徵工程知識對於時間序列數據來講是無用的; 即便咱們有兩個類似的圖像任務,但設計好的特徵並不容易,由於圖像中的對象也決定了什麼會起做用,哪些不會起做用。這須要不少經驗才能完成這一切。

因此特徵工程是很是困難的,你必須從頭開始爲每一個新任務作好。可是當咱們看圖像時,是否有可能自動找到最適合於任務的內核?

輸入卷積網

卷積網正是這樣作的。咱們沒有在內核中使用固定數字,而是將參數分配給這些內核,這些內核將在數據上進行訓練。當咱們訓練咱們的卷積網絡時,內核在爲給定相關信息過濾給定圖像(或給定特徵映射)方面會變得愈來愈好。這個過程是自動的,被稱爲特徵學習。特徵學習自動地推廣到每一個新任務:咱們只須要簡單地訓練咱們的網絡以找到與新任務相關的新濾波器。這使得卷積網絡如此強大 - 特徵工程沒有困難!

一般咱們不是在卷積網絡中學習單個內核,而是在同一時間學習多個內核的層次結構。例如,應用於256×256圖像的32x16x16內核將生成32個尺寸爲241×241的特徵映射(這是標準尺寸,尺寸可能因實現而異;{\ mbox {image size}  -  \ mbox {kernel size} + 1})。所以,咱們自動學習了32個新功能,這些功能爲咱們的任務提供了相關信息。而後這些功能爲下一個內核提供輸入,以便再次過濾輸入。一旦咱們學習了分層特徵,咱們只需將它們傳遞給一個徹底鏈接的簡單神經網絡,將它們結合起來,以便將輸入圖像分類爲類。這幾乎是全部關於卷積網絡在概念層面上的知識(池化過程也很重要,但那將是另外一篇博客文章)。

第二部分:高級概念

咱們如今對卷積是什麼以及卷積網絡發生了什麼以及卷積網絡如此強大的緣由有了很好的直覺。可是咱們能夠深刻了解一個卷積操做中真正發生的事情。在這樣作的時候,咱們會看到計算卷積的最初解釋是至關麻煩的,咱們能夠開發更復雜的解釋,這將有助於咱們更普遍地考慮卷積,以便咱們能夠將它們應用於許多不一樣的數據。爲了更深刻地理解,第一步是理解卷積定理。

卷積定理

爲了進一步發展卷積的概念,咱們利用了卷積定理,該卷積定理將時域/空域中的卷積(其中卷積的特徵是難以積分的積分或和)與頻率/傅立葉域中的單純元素乘法相關聯。這個定理很是強大,被普遍應用於許多科學領域。卷積定理也是緣由之一快速傅立葉變換(FFT)算法是由一些人認爲的20中最重要的算法之一世紀。

卷積定理

第一個方程是兩個通常連續函數的一維連續卷積定理; 第二個方程是離散圖像數據的二維離散卷積定理。這裏{\ otimes}表示卷積運算,{\ mathcal {F}}表示傅里葉變換,{\ mathcal {F} ^ { -  1}}傅里葉逆變換,而且{\ SQRT {2 \ PI}}是歸一化常數。請注意,這裏的「離散」意味着咱們的數據由可計數的變量(像素)組成; 和1D意味着咱們的變量能夠以一種有意義的方式在一個維度上進行佈局,例如時間是一維的(一秒鐘一個接一個),圖像是二維的(像素有行和列),視頻是三維的(像素有行和列,圖像一個接一個地出現)。

爲了更好地理解卷積定理中會發生什麼,咱們如今來看看關於數字圖像處理的傅里葉變換的解釋。

快速傅立葉變換

快速傅里葉變換是一種將數據從空間/時間域轉換爲頻率域或傅立葉域的算法。傅里葉變換用相似波浪的餘弦和正弦項來描述原始函數。重要的是要注意,傅立葉變換一般是複數值,這意味着一個真實的值被轉換成一個具備實部和虛部的複數值。一般虛部只對某些操做很重要,並將頻率轉換回空間/時間範圍,在本篇博文中大部分將被忽略。在下面,您能夠看到一個可視化如何經過傅立葉變換來轉換信號(一般具備時間參數的信息的函數,一般是週期性的)。

Fourier_transform_time_and_frequency_domains

時域(紅色)轉換到頻域(藍色)。資源

您可能不知道這一點,但極可能您天天都會看到傅里葉變換值:若是紅色信號是歌曲,那麼藍色值多是您的MP3播放器顯示的均衡器條。

圖像的傅里葉域

傅立葉變換

Fisher&Koryllos的圖像(1998)鮑勃費舍爾還運行一個關於傅立葉變換和通常圖像處理的優秀網站

咱們怎樣才能想象圖像的頻率?想象一張紙上面有兩種圖案之一。如今想象一下,波從紙的一個邊緣傳播到另外一個波,這個波在每一個特定顏色的條紋穿透紙張而且在另外一個上方盤旋。這種波以特定的間隔穿透黑色和白色部分,例如每兩個像素 - 這表明了頻率。在傅立葉變換中,較低的頻率靠近中心,較高的頻率位於邊緣(圖像的最大頻率處於邊緣)。具備高強度(圖像中的白色)的傅立葉變換值的位置根據原始圖像中強度最大變化的方向排序。

fourier_direction_detection

Fisher&Koryllos的圖像(1998)資源

咱們當即看到傅里葉變換包含了不少關於圖像中物體方向的信息。若是一個物體被轉過37度,則很難從原始像素信息中判斷出來,可是傅里葉變換後的值很清楚。

這是一個重要的看法:因爲卷積定理,咱們能夠想象,卷積網絡對傅立葉域中的圖像起做用,而且從上面的圖像咱們如今知道該域中的圖像包含大量關於方向的信息。所以,卷積網絡在旋轉圖像時應該優於傳統算法,事實確實如此(雖然當咱們將它們與人類視覺進行比較時,卷積網絡仍然很是糟糕)。

頻率濾波和卷積

卷積運算常常被描述爲一個濾波操做,以及爲何卷積核一般被命名爲濾波器的緣由將從下一個例子中看出,這個例子很是接近卷積。

Fisher&Koryllos的圖像(1998)資源

若是咱們用傅立葉變換對原始圖像進行變換,而後將它乘以由傅里葉域中的零填充的圓圈(零=黑色),咱們會過濾掉全部高頻值(它們將被設置爲零,由於零填充值)。請注意,濾波後的圖像仍然具備相同的條紋圖案,但其質量如今更糟 - 這是jpeg壓縮的工做原理(儘管使用了不一樣但類似的變換),咱們轉換圖像,僅保留某些頻率並轉換回空間圖像域; 在這個例子中,壓縮比將是黑色區域與圓圈大小的大小。

若是咱們如今想象這個圓是一個卷積核,那麼咱們就徹底有了卷積 - 就像在卷積網中同樣。還有不少技巧能夠加速並穩定用傅里葉變換計算卷積,但這是如何完成的基本原理。

如今咱們已經確立了卷積定理和傅里葉變換的意義,如今咱們能夠將這種理解應用到科學的不一樣領域,並加強咱們對深度學習中卷積的解釋。

來自流體力學的看法

流體力學關注於爲流體如空氣和水的流動(飛機周圍的空氣流動;水在橋的懸掛部分周圍流動)建立微分方程模型。傅里葉變換不只簡化了卷積,並且還簡化了差分,這就是爲何傅里葉變換普遍用於流體力學領域或任何具備微分方程的領域。有時,找到流體流動問題的分析解決方案的惟一方法是用傅立葉變換來簡化偏微分方程。在這個過程當中,咱們有時能夠用兩個函數的卷積來重寫這種偏微分方程的解,這樣就能夠很容易地解釋解。一維擴散方程就是這種狀況,

擴散

經過用外力移動液體(用勺子攪拌),能夠混合兩種液體(牛奶和咖啡) - 這就是所謂的對流,一般速度很是快。可是你也能夠等待,兩種流體會本身混合(若是它是化學可能的話) - 這就是所謂的擴散,與對流相比一般很是緩慢。

想象一下,水族館由一個薄而可拆卸的屏障分紅兩部分,其中水族箱的一側充滿鹹水,另外一側充滿淡水。若是您如今仔細地移除薄壁屏障,兩種流體將混合在一塊兒,直到整個水族箱處處都有相同濃度的鹽。這個過程更加「猛烈」,淡水和鹹水之間的鹹味差別越大。

如今想象你有一個方形的水族箱,有256×256的薄壁屏障,分隔256×256立方體,每一個立方體含有不一樣的鹽濃度。若是如今去除屏障,兩個立方體之間幾乎沒有混合,鹽濃度差別很小,但兩個立方體之間的鹽混合濃度很是不一樣。如今想象一下,256×256網格是一個圖像,立方體是像素,鹽濃度是每一個像素的強度。如今咱們不用擴散鹽濃度,而是擴散了像素信息。

事實證實,這只是擴散方程解法卷積的一部分:一部分簡單地說就是某個區域某一流體的初始濃度 - 或者圖像方面 - 初始圖像的初始像素強度。爲了完成將卷積解釋爲擴散過程,咱們須要解釋擴散方程的解的第二部分:傳播子。

解釋傳播者

傳播者是機率密度函數,它表示流體粒子在哪一個方向隨時間擴散。這裏的問題是咱們在深度學習中沒有機率函數,可是卷積核 - 咱們如何統一這些概念?

咱們能夠應用一個歸一化,將卷積核變成機率密度函數。這就像計算分類任務中輸出值的softmax同樣。這裏是上面第一個例子中邊緣檢測器內核的softmax歸一化。

SOFTMAX

邊緣檢測器的Softmax:爲計算softmax標準化,咱們將內核的每一個值[latex background =「ffffff」] {x} [/ latex]並應用[latex background =「ffffff」] {e ^ x} [ /膠乳]。以後,咱們除以全部[latex background =「ffffff」] {e ^ x} [/ latex]的總和。請注意,這種計算softmax的技術對於大多數卷積核是很好的,但對於更復雜的數據,計算有點不一樣以確保數值穩定性(對於很是大和很是小的值,浮點計算固有地不穩定,您必須在這種狀況下仔細導航周圍的麻煩)。

如今咱們對擴散方面的圖像進行卷積的全面解釋。咱們能夠將卷積運算想象成一個兩部分擴散過程:首先,像素強度發生變化的強擴散(從黑色到白色,或從黃色到藍色等),其次,區域中的擴散過程受到調節經過卷積核的機率分佈。這意味着內核區域中的每一個像素根據內核機率密度擴散到內核中的另外一個位置。

對於上面的邊緣檢測器,幾乎周圍區域的全部信息都集中在一個空間中(這對流體中的擴散是不天然的,可是這種解釋在數學上是正確的)。例如,全部低於0.0001值的像素將極可能流入中心像素並在那裏累積。在相鄰像素之間的最大差別處最終濃度將是最大的,由於這裏擴散過程是最明顯的。反過來,相鄰像素的最大差別就在那裏,在不一樣對象之間的邊緣處,因此這解釋了爲何上面的內核是邊緣檢測器。

因此咱們有它:卷積做爲信息的擴散。咱們能夠直接在其餘內核上應用這種解釋。有時咱們必須應用softmax標準化來解釋,但一般這些數字自己會說明會發生什麼。如下面的內核爲例。你如今能夠解釋內核在作什麼了嗎?點擊這裏 找到解決方案(有一個連接回到這個位置)。

softmax_quiz

等等,這裏有點可疑

若是咱們有一個具備機率的卷積核,咱們怎麼會有肯定性行爲?根據傳播者的說法,咱們必須根據內核的機率分佈來解釋單粒子擴散,不是嗎?

是的,這確實是事實。然而,若是你攝取一小部分液體,好比說一小滴水,那麼在這小小的水滴中仍然有數以百萬計的水分子,而根據傳播者的機率分佈,單個分子隨機表現出來,一束分子具備準確的肯定性行爲 - 這是統計力學的重要解釋,所以也是流體力學中的擴散。咱們能夠將傳播者的機率解釋爲信息或像素強度的平均分佈; 所以,從流體力學的觀點來看,咱們的解釋是正確的。可是,卷積也有一個有效的隨機解釋。

量子力學的看法

傳播者是量子力學中的一個重要概念。在量子力學中,一個粒子能夠處於一個疊加的位置,它有兩個或更多的屬性,這些屬性一般會在咱們的經驗世界中排除本身:例如,在量子力學中,一個粒子能夠同時在兩個地方 - 這是一個單一的對象兩個地方。

可是,當您測量粒子的狀態時(例如粒子如今在哪裏)時,它會在一個地方或另外一個地方。換句話說,經過觀察粒子來破壞疊加態。傳播者而後描述你能夠指望粒子的機率分佈。所以,在測量以後,根據傳播者的機率分佈,粒子可能在A處具備30%的機率而且在B處具備70%的機率。

若是咱們有顆粒糾纏(在必定距離的鬼影行爲),一些粒子能夠同時容納數百乃至數百萬個不一樣的狀態 - 這是量子計算機承諾的力量。

因此若是咱們將這種解釋用於深度學習,咱們能夠認爲圖像中的像素處於疊加狀態,所以在每一個圖像塊中,每一個像素同時在9個位置(若是咱們的內核是3×3 )。一旦咱們應用了卷積,咱們就進行了一次測量,每一個像素的疊加就像卷積核的機率分佈所描述的那樣摺疊成一個單獨的位置,或者換句話說:對於每一個像素,咱們隨機選擇9個像素中的一個像素(具備內核的機率)而且所獲得的像素是全部這些像素的平均值。爲了這種解釋是真實的,這須要是一個真正的隨機過程,這意味着,相同的圖像和相同的內核一般會產生不一樣的結果。這種解釋並非一對一地與卷積相關,但它可能會讓你思考如何以隨機方式應用卷積或如何開發卷積網絡的量子算法。量子算法將可以計算全部可能的組合由內核用一次計算描述,並以線性時間/量子位的方式描述圖像和內核的大小。

來自機率論的看法

卷積與互相關密切相關。互相關是一種操做,它須要一小段信息(一首歌的幾秒鐘)來過濾大量信息(整首歌)的類似性(在YouTube上使用相似的技術來自動爲視頻版權侵權標記) 。

互相關和卷積之間的關係:這裏[latex背景=「ffffff」] {\ star} [/ latex]表示互相關和[latex background =「ffffff」] {f ^ *} [/ latex]表示複共軛[latex background =「ffffff」] {f} [/ latex]。

雖然交叉相關看起來很笨拙,但咱們能夠輕鬆將其與深度學習中的卷積聯繫起來:咱們能夠簡單地將搜索圖像顛倒過來以經過卷積執行互相關。當咱們執行人臉圖像與臉部上方圖像的卷積時,結果將是臉部與人物匹配位置處的一個或多個明亮像素的圖像。

crosscorrelation_Example

經過卷積進行互相關:輸入和內核用零填充,內核旋轉180度。白點標記圖像和內核之間最強的像素相關性的區域。請注意,輸出圖像位於空間域中,逆傅立葉變換已應用。圖片來自史蒂文史密斯關於數字信號處理的優秀免費在線書籍

這個例子還說明了用零填充來穩定傅里葉變換,這在許多版本的傅立葉變換中都是必需的。有一些版本須要不一樣的填充方案:有些實現會在內核周圍扭轉內核,只須要填充內核,而其餘實現則執行分而治之的步驟,而且根本不須要填充。我不會在此擴展; 關於傅立葉變換的文獻是巨大的,而且有許多技巧可讓它運行得更好 - 特別是對於圖像。

在較低層次上,卷積網絡將不會執行互相關,由於咱們知道它們在最初的卷積層中執行邊緣檢測。可是在後面的層次中,更多的抽象特徵被生成,卷積網絡有可能經過卷積學習執行互相關。能夠想象,來自互相關的明亮像素將被重定向到檢測面部的單位(Google大腦項目在其架構中有一些專用於面部,貓等的單元;也許互相關在這裏起做用?) 。

來自統計的看法

統計模型和機器學習模型有什麼區別?統計模型一般集中在不多的變量上,這些變量很容易解釋。統計模型的創建是爲了回答問題:藥物A比藥物B好嗎?

機器學習模型與預測性能有關:藥物A對於年齡爲X的人增長17.83%的成功結果,對於年齡爲Y的人,藥物B增長22.34%。

機器學習模型一般比統計模型更有效,但它們不可靠。統計模型對於得出準確可靠的結論很是重要:即便藥物A比藥物B好17.83%,咱們也不知道這是不是偶然的緣由; 咱們須要統計模型來肯定這一點。

時間序列數據的兩個重要統計模型是加權移動平均數和自迴歸模型,它們能夠組合成ARIMA模型(自迴歸積分移動平均模型)。與長期短時間遞歸神經網絡等模型相比,ARIMA模型至關薄弱,但當您的維度數據較低時(1-5維),ARIMA模型很是穩健。雖然他們的解釋一般很費力,但ARIMA模型不像深度學習算法那樣是一個黑盒子,若是您須要很是可靠的模型,這是一個很大的優點。

事實證實,咱們能夠將這些模型重寫爲卷積,所以咱們能夠證實深度學習中的卷積能夠解釋爲產生局部ARIMA特徵的函數,而後傳遞到下一層。然而,這個想法並無徹底重疊,因此咱們必須保持謹慎,而且看看咱們什麼時候可以實施這個想法。

autoregression_weighted_average

{C(\ {MBOX內核})}是一個之內核爲參數的常量函數; 白噪聲是具備平均零的數據,標準誤差爲1,而且每一個變量相對於其餘變量不相關。

當咱們對數據進行預處理時,咱們一般將其與白噪聲很是類似:咱們常常將它置於零點附近,並將方差/標準誤差設置爲1。建立不相關變量的用處不大,由於它的計算密集程度很高,但從概念上講,它很簡單:咱們沿着數據的特徵向量從新定位座標軸。

eigenvector_decorrelation

經過沿着特徵向量重定向的解相關:這些數據的特徵向量由箭頭表示。若是咱們想解相關數據,咱們調整軸的方向與特徵向量具備相同的方向。這種技術也用於PCA中,其中具備最小方差(最短特徵向量)的維度在重定向後被丟棄。

如今,若是咱們認爲  {C(\ {MBOX內核})}是偏見,那麼咱們有一個表達式,它與深度學習中的卷積很是類似。所以,若是咱們將數據預處理爲白噪聲,卷積層的輸出能夠被解釋爲來自自迴歸模型的輸出。

加權移動平均數的解釋很簡單:它只是一些具備必定權重(內核)的數據(輸入)的標準卷積。當咱們查看頁面末尾的高斯平滑內核時,這種解釋變得更加清晰。高斯平滑核能夠被解釋爲每一個像素的鄰域中的像素的加權平均值,或者換句話說,像素在其鄰域中被平均(像素「融入」,邊緣被平滑)。

雖然單個內核不能同時建立自迴歸和加權移動平均特徵,但咱們一般擁有多個內核,而且全部這些內核均可能包含一些特徵,如加權移動平均模型和一些相似自迴歸模型的特徵。

結論

在這篇博文中,咱們已經看到卷積是什麼以及爲何它在深度學習中如此強大。圖像補丁的解釋很容易理解而且容易計算,可是它有許多概念上的限制。咱們經過傅里葉變換開發了卷積,而且看到傅立葉變換包含大量關於圖像方向的信息。 隨着強大的卷積定理,咱們開發了卷積解釋做爲跨像素信息的擴散。而後,咱們從量子力學的角度擴展傳播者的概念,以接受一般肯定性過程的隨機解釋。咱們發現互相關與卷積很是類似,而且卷積網絡的性能可能取決於經過卷積誘導的特徵映射之間的相關性。最後,咱們完成了卷積與自迴歸和移動平均模型的關聯。

就我我的而言,我發如今這篇博客文章中工做很是有趣。我感受好久之前,個人數學和統計學本科學習以某種方式被浪費了,由於他們太不切實際了(即便我學習應用數學)。但後來 - 像一個新興的財產 - 全部這些思想聯繫在一塊兒,實際上有用的理解出現了。我認爲這是一個很好的例子,爲何一我的應該耐心,仔細研究全部的大學課程 - 即便他們起初彷佛毫無用處。

convolution_quiz

上述測驗的解決方案:信息在全部像素中擴散幾乎相等; 對於相差較大的相鄰像素,這個過程將更增強大。這意味着銳利的邊緣將被平滑,而且在一個像素中的信息將擴散並與周圍的像素輕微混合。這個核被稱爲高斯模糊或高斯平滑。繼續閱讀來源:2

圖片來源參考

RB Fisher,K. Koryllos,「互動教材; 在文本中嵌入圖像處理操做員演示「,Int。J.of Pattern Recognition and Artificial Intelligence,Vol 12,No 8,pp 1095-1123,1998。

 

 

參考資料:

conv_arithmetic

A guide to convolution arithmetic for deep

相關文章
相關標籤/搜索