2017/7/20 朱興全教授學術講座觀點與總結第二講:單個神經元/單層神經網絡

1、神經網絡的結構算法

 

 

習慣的強勢:能量最小化   大腦控制區在人對某一個事情造成習慣後,在該事情發生時,做出判斷時再也不消耗能量。(能量最小化與偏差最小化?我想知道這裏的能量與通常的能量函數之間有沒有什麼聯繫的地方?)網絡

 

前向網絡:網絡中只有輸入到輸出的鏈接(下面給出單層和多層前向網絡)函數

 

 

非隱藏層中能夠比較指望輸出與真實輸出(注意觀察最後一層的獨立性,各個輸出對權重的調整互不影響)性能

 

Why RNN?學習

 

先後順序有相關性,時間順序之間相關性,例如:文本分析。測試

 

神經網絡(結構、神經元、學習算法)大數據

 神經元spa

神經元是神經網絡中基本的信息處理單元,包括①一系列鏈接的權重Wi,②加法函數計算輸入與權重的和,③激活函數:限制神經元的輸出值大小(爲何要限制大小呢?)3d

激活函數blog

 

第一種是二值化,能夠用於分類。第二種能夠求導可是不連續。第三種是能夠求導。

 

 

學習算法(重點)

  • 錯誤糾正(感知機)
  • 梯度降低(BP)
  • competitive learning(self organizing maps)

何時考慮神經網絡?

 

 

 


2、單層神經網絡

只考了一個神經元的訓練,多個神經元的訓練相似,只是輸出不一樣

 

 

一、感知機訓練規則  不保證得到最優曲線,只保證得到可區分的狀況

 

 

缺點:

一、不斷修改,不斷抖動(遇到不符合即刻修改)

二、線性不可分問題不能解決

三、正確樣本在劃分正確之後就沒有再利用(指望正確分類的那些好的性質也能夠利用起來)

四、錯誤劃分的錯誤程度沒有計入考慮之中(不一樣程度考慮方案不一樣)

 

二、梯度降低學習法則

梯度迭代,權重更新沿梯度反方向

平方偏差偏差來構造二次方程(二次方程有全局最小值),二次函數前面的1/2主要是爲了求導方便

缺點:按所有樣本(一次計算出全部樣本的狀況,對ΔW進行累加)的ΔW來更改權重,計算量大。

 

選擇學習率η要充分小,太大的時候容易越過最優勢。

 

 

三、Incremental stochastic gradient descent 隨機選擇樣本進行迭代

兩種方式

第一種選擇部分子集替代全部集合進行梯度迭代,這個時候也存在風險,有部分集合一直屬於錯分狀態,沒有利用到。第二種是在計算存在ΔW不爲0的時候,就開始進行更新權重,迭代速度加快。

 

 學習規則的對比:

模型性能的驗證

訓練集和測試集的分割

  • 隨機分割
  • 交叉驗證:注意保證每個小集合的分佈與大數據集的分佈要保持一致,同時每個集合既要做爲測試集也要做爲訓練集,如把集合分爲A分爲A一、A二、A3三個部分,這三個部分要與A的分佈近似,分別選擇三次,選擇A一、A2做爲訓練集,A3做爲測試集;選擇A二、A3做爲訓練集,A1做爲測試集;選擇A三、A1做爲訓練集,A2做爲測試集。
相關文章
相關標籤/搜索