1、神經網絡的結構算法
習慣的強勢:能量最小化 大腦控制區在人對某一個事情造成習慣後,在該事情發生時,做出判斷時再也不消耗能量。(能量最小化與偏差最小化?我想知道這裏的能量與通常的能量函數之間有沒有什麼聯繫的地方?)網絡
前向網絡:網絡中只有輸入到輸出的鏈接(下面給出單層和多層前向網絡)函數
非隱藏層中能夠比較指望輸出與真實輸出(注意觀察最後一層的獨立性,各個輸出對權重的調整互不影響)性能
Why RNN?學習
先後順序有相關性,時間順序之間相關性,例如:文本分析。測試
神經網絡(結構、神經元、學習算法)大數據
神經元spa
神經元是神經網絡中基本的信息處理單元,包括①一系列鏈接的權重Wi,②加法函數計算輸入與權重的和,③激活函數:限制神經元的輸出值大小(爲何要限制大小呢?)3d
激活函數blog
第一種是二值化,能夠用於分類。第二種能夠求導可是不連續。第三種是能夠求導。
學習算法(重點)
何時考慮神經網絡?
2、單層神經網絡
只考了一個神經元的訓練,多個神經元的訓練相似,只是輸出不一樣
一、感知機訓練規則 不保證得到最優曲線,只保證得到可區分的狀況
缺點:
一、不斷修改,不斷抖動(遇到不符合即刻修改)
二、線性不可分問題不能解決
三、正確樣本在劃分正確之後就沒有再利用(指望正確分類的那些好的性質也能夠利用起來)
四、錯誤劃分的錯誤程度沒有計入考慮之中(不一樣程度考慮方案不一樣)
二、梯度降低學習法則
梯度迭代,權重更新沿梯度反方向
平方偏差偏差來構造二次方程(二次方程有全局最小值),二次函數前面的1/2主要是爲了求導方便
缺點:按所有樣本(一次計算出全部樣本的狀況,對ΔW進行累加)的ΔW來更改權重,計算量大。
選擇學習率η要充分小,太大的時候容易越過最優勢。
三、Incremental stochastic gradient descent 隨機選擇樣本進行迭代
兩種方式
第一種選擇部分子集替代全部集合進行梯度迭代,這個時候也存在風險,有部分集合一直屬於錯分狀態,沒有利用到。第二種是在計算存在ΔW不爲0的時候,就開始進行更新權重,迭代速度加快。
學習規則的對比:
模型性能的驗證
訓練集和測試集的分割