前面兩篇介紹了SOM的基本概念和算法,第一部分,第二部分,本篇具體展開一下應用中的一些trick設定。算法
輸出層設計
輸出層神經元數量設定和訓練集樣本的類別數相關,可是實際中咱們每每不能清除地知道有多少類。若是神經元節點數少於類別數,則不足以區分所有模式,訓練的結果勢必將相近的模式類合併爲一類;相反,若是神經元節點數多於類別數,則有可能分的過細,或者是出現「死節點」,即在訓練過程當中,某個節點從未獲賽過且遠離其餘獲勝節點,所以它們的權值從未獲得過更新。markdown
不過通常來講,若是對類別數沒有肯定知識,寧肯先設定較多的節點數,以便較好的映射樣本的拓撲結構,若是分類過細再酌情減小輸出節點。「死節點」問題通常可經過從新初始化權值獲得解決。網絡
輸出層節點排列的設計
輸出層的節點排列成哪一種形式取決於實際應用的須要,排列形式應儘可能直觀反映出實際問題的物理意義。例如,對於旅行路徑類的問題,二維平面比較直觀;對於通常的分類問題,一個輸出節點節能表明一個模式類,用一維線陣意義明確結構簡單。函數
權值初始化問題
基本原則是儘可能使權值的初始位置與輸入樣本的大概分佈區域充分重合,不要出現大量的初始「死節點」。學習
優勝鄰域的設計
優勝領域設計原則是使領域不斷縮小,這樣輸出平面上相鄰神經元對應的權向量之間既有區別又有至關的類似性,從而保證當獲勝節點對某一類模式產生最大響應時,其領域節點也能產生較大響應。領域的形狀能夠是正方形、六邊形或者菱形。優點領域的大小用領域的半徑表示,
編碼
學習率的設計
在訓練開始時,學習率能夠選取較大的值,以後以較快的速度降低,這樣有利於很快捕捉到輸入向量的大體結構,而後學習率在較小的值上緩降至0值,這樣能夠精細地調整權值使之符合輸入空間的樣本分佈結構。在上一篇中,咱們提到最終的學習率是由學習率*優勝領域的影響,也有一些資料是把二者分開的,學習率就是一個遞減的函數(學習率能夠參考上面優勝鄰域半徑的設定形式,可選形式相似),而優勝鄰域也是t的遞減函數,只不過咱們隊優勝鄰域內的點進行更新罷了。atom
一、保序映射——將輸入空間的樣本模式類有序地映射在輸出層上。spa
1989年Kohonen給出一個SOM網的著名應用實例,即把不一樣的動物按其屬性映射到二維輸出平面上,使屬性類似的動物在SOM網輸出平面上的位置也相近。訓練集選了16種動物,每種動物用一個29維向量來表示。前16個份量構成符號向量(不一樣的動物進行16取1編碼),後13個份量構成屬性向量,描述動物的13種屬性的有或無(用1或0表示)。.net
SOM網輸出平面上有10×10個神經元,16個動物模式輪番輸入訓練,最後輸出平面呈現16種動物屬性特徵映射,屬性類似的挨在一塊兒,實現了特徵的有序分佈。(實現這個圖只須要判斷每一個神經元的模式和哪一個樣本最近)
設計
二、數據壓縮
將高維空間的樣本在保持拓撲結構不變的條件下投影到低維的空間,在這方面SOM網具備明顯的優點。不管輸入樣本空間是多少維,其模式均可以在SOM網輸出層的某個區域獲得相應。SOM網通過訓練之後,在高維空間輸入相近的樣本,其輸出相應的位置也相近。
三、特徵提取
從高維空間樣本向低維空間的映射,SOM網的輸出層至關於低維特徵空間。
另外,[2]還提到了字符排序,複合材料損傷監測等等有趣的應用,有興趣的能夠看一下。這裏就不展開了。
SOM提出的比較早,算法的思想啓發於人腦,主要用於無監督學習,我我的認爲是頗有發展空間的一類模型;另外,比較早的還有一類網絡叫作hopfiled神經網絡,後面有時間再寫一下。好,本篇就到這裏,謝謝!
[1] https://en.wikipedia.org/wiki/Self-organizing_map [2] 百度文庫,《SOM自組織特徵映射神經網絡》 [3] 《第四章 自組織競爭型神經網絡》, PPT