https://blog.csdn.net/oxuzhenyi/article/details/73026796html
雖然在實驗一中我想盡可能少的引入(會讓人放棄繼續學習的)數學概念,但我彷佛仍是失敗了。不過這幾乎是沒有辦法的事,要想真正學會深度學習,沒有必定的數學基礎(高等數學、線性代數、機率論、信息論等),(幾乎)是不可能的。學深度學習不學其中的原理你可能可以學會搭建模型,但當模型出了問題或者沒法訓練出好的結果時,不懂原理是很難調試的。python
不過話說回來,要想理解深度學習中的基本概念(而不是想要在深度學習領域作研究),要學的數學知識也不是很難。你應該很快就能掌握這些知識。算法
因此本次實驗課,咱們介紹本課程會涉及到的數學知識以及在以後「 圖片英文字母識別」的項目中要用到的python numpy
模塊。shell
警告:本次實驗介紹的數學知識只是爲了讓你更好地理解本課程中的相關概念,有些地方不夠嚴謹,請勿等同於數學教科書參考編程
高中數學裏面咱們已經學過,函數值隨自變量的變化速率是導數。導數衡量的,實際上是一個變量對函數值影響能力的大小。導數值越大,則該變量每改變一點對最終函數值的影響越大。且導數值爲正時,表明自變量增大時函數值增大,反之若導數值爲負,則自變量增大時函數值減少。
常見函數的導函數:數組
原函數f | 導函數f' |
---|---|
任何常數 | 0 |
x | 1 |
e^x | e^x |
x^2 | 2*x |
1/x | -1/x^2 |
ln(x) | 1/x |
上面咱們列舉的都是隻有一個自變量的函數,若是自變量有多個,如何求導數呢?好比對於函數f=x+y,怎樣衡量x和y分別對函數值f的影響快慢呢?
數學上引入了偏導的概念,對一個多變量函數f,求f對其中一個自變量x的偏導很簡單,就是將與x無關的其餘自變量視爲常亮,再使用單變量求導的方法去求導。獲得的即爲f對x的偏導。好比:網絡
令f=x+2y, 則f對x求偏導的結果爲1,對y求偏導的結果爲2。
令f=x*y, 則f對x求偏導結果爲y,對y求偏導結果爲x。dom
2.1.1
中咱們提到了,對單變量函數來講,導數值的正負表明自變量對函數值影響的「方向」:變大或變小。那對於多變量函數來講,如何表達這個方向呢?這就引入了梯度的概念:函數
梯度是一個向量,向量長度與自變量的個數相等,且其中的每個元素爲函數對於對應變量求偏導的值。學習
好比對於函數f=x*y, 其梯度向量爲(y,x)
, 對於具體的自變量的值,好比x=1,y=1
的點,其梯度向量就爲(1,1)
, 又好比x=10,y=-20
點,其梯度向量就爲(-20,10)
。
梯度做爲一個向量,指向的是使函數值增大最快的方向(回想第一次實驗中的損失函數圖,梯度所指的方向是向上的)。
上面咱們講的求導數和求偏導,都是對於「簡單函數」,對於「複合函數」,好比下面這樣的函數:
f
函數是一個複合函數,它由f1
和f2
函數「串聯」而來。其中f1
的輸入是f2
的輸出。
對於複合函數求導,一種方法是將複合函數展開,好比對於上面的函數, 獲得f=1/(e^x)
,而後再根據簡單函數求導法則對自變量求導。過程以下:f' = -1/((e^x)^2)*((e^x)') = -(e^x)/((e^x)^2) = -1/(e^x)
即 f' = -1/(e^x)
其實,在上面的求導過程當中,咱們已經使用了求導鏈式法則(chain rule)
,只是你沒有察覺而已。求導鏈式法則
讓咱們能夠一部分一部分地,對複合函數求導,而不用放在一塊兒求。這對於編程來講十分重要,它使得對複合函數求導變得十分簡單。
可是這裏描述起來可能稍顯複雜。以f
爲例,當咱們須要對自變量x
求導時,咱們能夠先將f2(x)看作一個自變量f2
,先讓f1
對f2
求導,獲得第一部分導函數-1/(f2^2)
,再讓f2
對x
求導,獲得第二部分導函數e^x
。求好以後,直接將兩部分導數乘起來,即獲得最終複合函數總體的導數。不過要先使用實際的表達式替換掉第一部分導數中的f2, 即第一部分導數爲-1/((e^x)^2)
, 第二部分導數爲e^x
。兩部分乘起來就獲得了最終正確的-1/(e^x)
。
如今你可能以爲這個鏈式法則是複雜乏味的,可是下一次實驗你會發現鏈式法則
真是太強大了。實際上,咱們最後實現的深度神經網絡,就是不斷在運用求導鏈式法則。
若是你上過本科線性代數課程,你十有八九會對矩陣沒有什麼感受,甚至對這麼一個運算法則十分奇怪的東西感到厭惡。但我但願你從此能改變對矩陣、對線性代數的見解,不要讓糟糕的教材和老師糟糕的ppt毀掉線性代數可能帶給你的巨大的提高本身(是的,這並不誇張)的機會。矩陣其實很是很是很是有用,在現代科學的每個角落,幾乎都能看到矩陣的身影,深度學習中更是如此。
限於篇幅,本節只會介紹必要的矩陣相關知識,線性代數中的更多東西,請你經過其餘途徑學習(推薦使用英文教材學習)。
一個m*n的矩陣爲一個m行n列的數組,好比:
a
是一個3*2的矩陣,b
是一個2*3的矩陣,c
是一個3*1的矩陣,d
是一個1*2的矩陣。
其中,c
只有一列,咱們也能夠稱c
爲列向量
,d
只有一行,咱們也能夠稱d
爲行向量
。本課程中,對於向量,默認都是指列向量
。
標量
(你能夠直接理解爲一個數字)乘以矩陣,獲得的結果爲矩陣中的每一個元素和該標量相乘,以下圖:矩陣的轉置運算
轉置運算經過在矩陣右上角添加一「撇」表示。
轉置就是矩陣翻轉一下,轉置會改變矩陣的形狀。注意觀察轉置是繞着哪一個軸翻轉的。
矩陣之間的加減法
矩陣之間的加減法要求參與運算的兩個矩陣尺寸相同,運算的結果等於兩個矩陣對應元素相加減。
矩陣魔力的來源--矩陣之間的乘法
矩陣的乘法有些複雜,但在第一講實驗中你已經見過它了。矩陣的乘法其實就是表明了一個線性方程組參數和自變量如何結合的過程(矩陣乘法還有更多豐富的含義,若有興趣,請你本身去探索)。
矩陣乘法的具體規則就是,第一個矩陣中的第i行的全部元素,與第二個矩陣中的第j列的全部元素,分別相乘以後再求和,獲得結果矩陣中第i行第j列的元素。
上面的描述只看一遍很難弄懂,請你結合圖片中的例子仔細揣摩。
矩陣乘法首先要求參與乘法運算的兩個矩陣的尺寸可以「兼容」,具體的要求就是,第一個矩陣的列數與第二個矩陣的行數必須相同。你能夠觀察圖片中的示例,第一個矩陣的列數都是2,第二個矩陣的行數也都是2,這樣才能保證「第一個矩陣中的第i行全部元素」與「第二個矩陣中第j列的全部元素」可以一一對應。
矩陣乘法運算獲得的結果矩陣,其行數等於第一個矩陣的行數,其列數等於第二個矩陣的列數。
矩陣乘法不知足交換律!!首先,交換兩個矩陣的位置以後它們的尺寸不必定可以兼容,而後即便兼容,運算獲得的結果也不必定與原來相同。你能夠本身隨便舉幾個例子試一下。
實現咱們的深度神經網絡,須要進行不少數學運算,尤爲是矩陣運算。而你也看到了,矩陣的(乘法)運算很複雜,本身編程實現比較困難並且容易出錯。爲了解決這些問題,咱們將會使用python中的科學計算庫numpy
。有了numpy
, 咱們的代碼將大大簡化,同時速度也會有很大提高。
實驗樓環境已經安裝了numpy,使用import語句導入便可,爲了簡化代碼,導入後咱們將numpy命名爲np。
當你使用numpy進行計算時,在terminal 裏輸入top
命令,你會發現有多個"同樣"的python進程在運行,這是由於numpy會自動進行多進程運算,提升計算速度。
>> top
如下的實例請你本身在python shell 中一塊兒實驗一遍。
numpy
中的數據類型被稱爲ndarray
(即 N-dimensional array,多維數組),建立一個ndarray
很簡單:
即向np.array()
函數傳入一個python列表便可。注意dtype
參數是可選的,它指定了生成的數組的數據長度和類型,這裏是長度爲8bit的無符號整數。
mat1=np.zeros((2,3))
np.zeros()
快速建立一個指定維度的全0矩陣,注意傳進去的參數是一個tuple
。
"矩陣"通常指有行和列的「二維」矩陣,但numpy還支持高維矩陣,好比下面:
nd
就能夠看做是一個1x2x3x4尺寸的高維矩陣。ndarray.shape
保存的是數組的「形狀」,也就是高維矩陣每一維的長度。ndarray.size
保存的是數組每一維長度相乘的結果,即數組元素的個數。
首先你要注意的是,numpy
中的運算和數學中的運算不是徹底同樣的,實際上,numpy
不只爲咱們提供了標準運算,還提供了更多方便咱們編程的運算類型和特性。
咱們先來看標準的矩陣運算:
ndarray.T
便可獲得其轉置。對於高維矩陣,ndarray.T
會將維度的順序徹底翻轉(順序逆過來)。*
號,而是經過.dot()函數。numpy
內置的擴展運算用起來很是方便。
兩個矩陣的對應元素相乘(內積?)
注意相乘的兩個矩陣尺寸必須相同。
標量與矩陣相加
標量與矩陣相加就至關於對矩陣的每一個元素都加上該標量。
操縱高維矩陣的維度
有時候,咱們想要改變高維矩陣維度的順序,但ndarray.T
只能徹底翻轉,沒法知足咱們的需求,這個時候就能夠調用ndarray.transpose()
,其參數表明本來矩陣的維度從新排列的順序。因此這裏的例子實際上至關於第0維不變,第1第2維交換。
numpy
文檔:broadcasting本節介紹一些後面的項目會用到的其餘雜項操做
生成隨機數據
rannum=np.random.randn(5,10)
np.random.shuffle()
函數能夠接收python list
或者numpy ndarray
,並將數組中的元素隨機打亂。
對矩陣求和
np.sum()
函數會對矩陣中的全部元素求和。
numpy中的「軸(axis)」
咱們以前使用「維度」描述矩陣的形狀,這樣容易和以前提到的向量的維度(長度)混淆,numpy中有另外一個概念叫作「軸(axis)」與這裏所說的「維度」很相似,指的是對一個矩陣進行操做時,所執行的「方向」。文字不太好描述,咱們結合實例來理解:
np.sum(a,axis=0)
就是對矩陣a,在第一個「軸」上求和,具體效果就是對矩陣的每一列求和。np.sum(a,axis=1)
就是對矩陣a,在第二個「軸」上求和,具體效果就是對矩陣的每一行求和。
這裏可能不太好理解,請本身多舉幾個例子實驗一下。
e的指數
np.exp()
返回輸入中的每一個元素x都對e求指數的結果。
求一個數組中最大元素的下標
np.argmax()
返回一個python列表或numpy ndarray中的最大元素的下標。
本次實驗的內容已經被我儘可能精簡了,只保留了後面的項目當中會用到的內容。我但願你能儘可能理解上面的知識,雖然對於一些人來講這可能有些難,但數學最能體現人類的智慧不是嗎,數學是深度學習,乃至人工智能得以發展的重要基礎。
若是你以爲本次實驗內容太簡單或者寫的不夠好,請自行查閱其餘資料學習相關內容。
本次實驗,咱們學習了: