人工智能必備數學基礎：高等數學基礎（2）

時間 2020-12-22

標籤 html git github 算法數組網絡機器學習函數 post 性能欄目應用數學简体版

原文原文鏈接

若是須要小編其餘數學基礎博客，請移步小編的GitHub地址

　　傳送門：請點擊我html

　　若是點擊有誤：https://github.com/LeBron-Jian/DeepLearningNotegit

　　這裏我打算補充一下機器學習涉及到的一些關於微積分的知識點。github

　　微積分是高等數學中研究函數的微分，積分以及有關概念和應用的數學分支。它是數學的一個基礎學科。內容主要包括極限，微分學，積分學及其應用。微分學包含求導數的運算，是一套關於變化率的理論。它使得函數，速度，加速度和曲線的斜率等都可用一套通用的符號進行討論。積分學，包含求積分的運算，爲定義和計算面積，體積等提供一套通用的方法。算法

　　前一節博客已經整理了求導的公式，一些經常使用的概念。這裏主要學習一下微積分的起源。由於微積分是現代數學的基礎，後面學習的線性代數，矩陣論，最優化方法等數學課程都須要微積分的知識。單就機器學習和深度學習而言，更多的用到微分，積分基本上只在機率論中被使用，機率密度函數，分佈函數等概念和計算都要藉助於積分來定義或計算。　　數組

　　前一節的博客地址：網絡

人工智能必備數學基礎：高等數學基礎（1）機器學習

　　（注意：目前本身補充到的全部知識點，均按照本身網課視頻中老師課程知識點走的，同時一些公式是網友辛辛苦苦敲的，這裏用到那個博客均在文末補充地址，不過這裏首先表示感謝！！）函數

　　（特別感謝此博客（深刻淺出的講解了微積分）：https://www.zhihu.com/question/336322284/answer/918067537）post

1，微積分的起源

　　微積分有多重要，相信你們多多少少內心有點數，特別是咱們這些學數學的。好了廢話很少說了，直接來學。性能

　　微積分誕生於 17 世紀，主要幫助人們解決各類速度，面積等實際問題。下圖爲微積分的發明者牛頓和萊布尼茲大佬，瞻仰一下。

　　咱們從小學數學就學會了各類求面積的公式，好比長方形，三角形，圓，梯形等等。不知道你們有沒有想過一個問題：好像咱們每新學習一種新圖形就有一個新的面積公式，但是世界上有無數種圖形，咱們難道要記無數種公式嗎？，並且還有一些圖形根本沒有什麼面積公式，好比隨手畫一條曲線，這條曲線圍成的面積如何計算呢？　　

　　因此面對如何求一條曲線圍成的面積就有不少人去研究。面對這個問題，古今中外的數學家的想法都是相似的，那就是：用咱們熟悉的圖像（好比三角形，長方形等）去逼近曲線圍成的圖像面積。這就比如在鋪地磚的時候，咱們會用盡量多的瓷磚填滿地板，而後這些瓷磚的面積之和差很少就是地板的面積。這裏就蘊含了微積分的思想了。

　　微積分主要解決如何求曲線的面積。咱們這裏能夠把微積分拆分紅「微分」和「積分」兩個詞，

　　首先來看積分，積分這個詞當初被造出來，就是用來表示「由無窮個無窮小的面積組成的面積S」。

　　如上圖所示，若是一條曲線 y=f(x) 和 x 軸在 a 和 b 之間圍成的面積爲A，那麼咱們就能夠這樣表示這部分面積A：

　　微積分的思想是：以直代曲。

　　爲了加深一下對上面這個積分公式的理解，咱們再來用矩陣試一下，對於矩形，咱們能夠輕鬆求得其面積，那麼是否可以用矩形代替曲線形狀呢?若是要代替則應該用多少個矩陣來代替呢？

　　以下圖，咱們能夠將其分爲四個矩陣，九個矩陣：

　　咱們用有限個矩陣把a和b之間分爲四份，咱們看到若是隻是用矩陣求面積的話，仍是有很大偏差的，可是使用九個的話，偏差就縮小了，那麼咱們是否可使用無窮多個矩形來逼近原面積，這樣偏差就變得無窮小了，答案是確定的。當咱們使用無數個矩陣來逼近原面積的時候，每一個矩形的底天然就變成了無窮小，這個無窮小的底就是上面的 dx，而 f(x) 就是函數的縱座標，矩陣的底，高相乘不就是求面積了嗎？

　　下面說說公式由來。

　　在 ab 之間插入若干個點，這樣就獲得了 n個小區間。

　　每個小矩形面積爲：

　　近似獲得曲線面積：

　　當分割無限加細，每一個小區間的最大長度爲 λ ，此時 λ -> 0

　　曲邊面積：

　　不過這裏再吹吹牛逼。

　　上面將 dx 當作一個無窮小的底，把積分當作求面積，這些都是微積分創立初期的見解。這種見解很是符合咱們的直觀，可是邏輯上是不嚴密的。這種無窮小量 dx 也招致了不少人（好比貝克萊）對微積分的攻擊，而且引起了第二次數學危機，這場危機一直到19世紀柯西等人完成了微積分的嚴密化以後才完全化解。隨着微積分的涅槃重生，咱們對這些基本概念的見解也發生了根本的改變。

　　關於求面積的事情這裏就說完了。「用一些圖形去無限逼近曲線圖形」的想法很早就有了，窮竭法在古希臘就很成熟了，中國魏晉時期的數學家劉徽使用割圓術去逼近圓周率也是這種思想。到了17世紀初，這些思想並無什麼太大的改變，因爲這些解法比較複雜，又很難擴展，因此你們的關注度並不高。

　　沒辦法，由於打死人也想不到：破解這種求曲線面積（求積分）的關鍵，居然藏在一個看起來跟他毫無關聯的東西身上，這個東西就是微積分名字的另外一半：微分。當牛頓和萊布尼茲意識到微分和積分之間的內在關係以後，數學就迎來了一次空前的大發展。

　　從求和出發，咱們須要儘量的將每個矩陣的底邊無窮小，萊布尼茲爲了體現求和的感受，給 S 拉長了，簡寫成：∫ f(x) dx。

2，直線和斜率

　　微積分的基本概念是導數。

　　關於導數呢，舉個例子：咱們登山的時候，山越陡越難爬；騎車的時候，路面的坡度越大越難騎。一個面的坡度越大，傾斜的越厲害，咱們就越難上去，那麼咱們該如何衡量這個傾斜程度呢？

　　在平面裏畫一條直線，咱們能夠直觀地看出這條直線的傾斜程度，並且還不難發現：無論在直線的什麼地方，它的傾斜程度都是同樣的。因此咱們就能夠用一個量來描述這整條直線的傾斜程度，這個概念就被形象的稱爲斜率。

　　那麼，一條直線的斜率要怎麼計算呢？這個想法也很直觀：建一個座標系，看看直線在 x 軸改變了 Δx 的時候，它在 y 軸的改變量 Δy 是多少。若是 Δx 是固定的，那麼顯然 Δy 越大，這條直線就斜的越厲害，斜率也就越大。

　　這就和咱們判斷跑步的速度是同樣的道理：給定一個固定的時間，好比10秒（至關於固定的 Δx），看看你能跑多遠（至關於 Δy），你跑的越遠（Δy 越大），我就認爲你跑得就越快。固然也能夠反過來，給定一個固定的距離，好比100米（至關於Δy），你跑的時間越短（Δx 越小），我就認爲你跑的越快。

　　把這兩種狀況綜合一下，咱們就能發現：固定時間（Δx）也好，固定距離（Δy）也好，最終起決定做用的是Δy和Δx的比值Δy/Δx。這個比值越大，你就跑得越快，對應的直線也就越陡。因此，咱們就能夠在直線上隨意找兩個點，用它們縱座標之差Δy和橫座標之差Δx的比值（Δy/Δx）來定義這條直線斜率。

　　學過三角函數的同窗也會知道，這個斜率恰好就是這條直線和x軸夾角θ的正切值tanθ，即：tanθ=Δy/Δx。這就是說，直線和x軸的夾角θ越大，它的斜率就越大，就傾斜的越厲害，這跟經驗都是一致的。

3，曲線和切線

　　直線好說，關鍵是曲線怎麼辦？曲線跟直線不一樣，它徹底能夠在這裏平緩一點，在那裏陡峭一點，它在不一樣地方的傾斜程度是不同的。因此，咱們就不能說一條曲線的傾斜程度（「斜率」），而只能說曲線在某個具體點的傾斜程度。

　　因而咱們要引入一個新的概念：切線。

　　切線，直觀的看，就是恰好在這點「碰到」曲線的直線，由於切線是直線，因此切線有斜率，因而咱們就能夠用切線的斜率表明曲線在這點的傾斜程度。

　　傳統上咱們能夠這樣定義切線：先隨便畫一條直線，讓這條直線與曲線有兩個交點，這樣的直線叫割線（彷彿把曲線「割斷」了，以下圖藍色的AB）。而後，咱們讓B點沿着曲線慢慢向A點靠近，直觀上，等到B點和A點重合以後，割線AB就變成了曲線在A點的切線。

　　這樣作很符合人們的直觀，可是它在邏輯上會有一點問題：當B點向A點移時，它是何時從割線變成切線呢？

　　重合的時候嗎？若是B點和A點重合，那就剩下一個點了，咱們知道「兩點肯定一條直線」，一個點怎麼能肯定一條直線呢？可是，若是B點和A點不重合的話，那麼這就仍然是一條割線而不是切線啊。

　　因而，這樣就出現了一個「一看很是簡單直觀，可是怎麼說都說不圓」的狀況，彷佛兩個點不行，一個點也不行，怎麼辦？

　　解決這個問題有一個很樸素的思路：要肯定這條切線，讓A，B兩點重合是不行的，可是讓他們分得太開也不行。最好就是讓着兩點靠近靠近無限靠近，可是就是不讓他們重合。沒重合的話就依然是兩個點。兩個點能夠肯定一條直線；無限靠近的話又能夠把他們跟通常的割線區分開來，這樣不就是一箭雙鵰了。

　　也就是說，A，B兩點必須無限靠近但又不能重合，這樣他們的距離就無限接近0但又不等於0。這是什麼，這不就是無窮小麼？

　　咱們前面求曲線圍成的面積時，核心實現就是用無數個矩陣來逼近原圖像，這樣每一個矩形的底邊就變成了無窮小。在這裏，咱們又認爲當A，B兩點的距離變成無窮小的時候，割線AB就變成了過A點的切線。

　　那麼切線的斜率是什麼？

　　好，利用無窮小定義了一點上的切線，咱們就能夠理所固然的用過這點切線的斜率來標色曲線在這點的傾斜度了。

　　那麼切線是當曲線上A，B兩點相隔無窮小時肯定的直線，那麼切線的斜率依然能夠寫成 Δy/Δx，只不過這時Δx和Δy都無限趨近於0。

　　萊布尼茲就給這兩個趨近於0卻又不等於0的 Δx和Δy 從新取了一個名字：dx 和 dy，並把他們稱爲「微分」。

　　也就是說，對萊布尼茲而言，dx這個微分就是當 Δx 趨近於0時的無窮小量， dy 也是同樣。雖然 dx 和 dy 都是無窮小，可是他們的比值 dy/dx 確是一個有限的數（因此這時候你就不能把無窮小 dx 當成 0 了，不然還怎麼當除數？）這就是該點切線的斜率，這樣一切就彷佛解釋的通了。

　　雖然上圖放大了，可是其實依然是：

　　再次使用圖對幾個指標進行解釋：

4，導數

4.1 導數的初始定義

　　顯然，咱們在曲線上的一點上定義了切線，那麼在平滑曲線的其餘點上也能定義切線。由於每條切線都有一個斜率，因此曲線上的任何一點都有一個斜率，因此，曲線上任何一點都有一個斜率值跟它對應。兩個量之間存在一種對應關係，這個關係就是函數。

　　函數 y = f(x) 不就是告訴咱們：給定一個 x，就有一個 y 和它對應。如今咱們是給定一個點（假設橫座標爲 x），就有一個斜率 dy/dx 跟他對應。顯然，這也是個函數，這個函數就叫導函數，簡稱導數。

　　在中學，咱們一般在函數 f(x) 的右上角加上一撇表示這個函數的導數，那麼如今這兩個狀況就表示導數：

　　因此，導數 f '(x) 就能夠表示橫座標爲 x 的地方對應切線的斜率，它表示曲線在這一點上的傾斜程度。若是導數 f '(x) 的值比較大，曲線就比較陡，f '(x) 比較小，曲線就比較平緩。因而，咱們就能夠用導數來描述曲線的傾斜程度了。

　　例子：求函數 f(x) = x² 的導數。

　　這仍是咱們前面說的拋物線，它的函數圖像是這樣的：

　　求函數的導數，就是求函數在每一點切線的斜率，而切線就是曲線上兩個相距無窮小的點肯定的直線。

　　那就好說了，咱們假設曲線上有一個橫座標爲x的點，那麼，跟它距離無窮小的點的橫座標就是x+dx，因爲這個點也在曲線f(x)=x²上，因此它的縱座標就是(x+dx)²，即：

　　而後，咱們用這兩個點的縱座標之差f(x+dx)-f(x)除以橫座標之差(x+dx)-x就能算出x點的切線斜率。由於這個x是任意取的，因此獲得的結果就是任意點的切線斜率，那麼這就是導數了：

　　接下來，化簡上面，不過存在一個問題：這上面和下面的dx能不能約掉？

　　咱們知道，除數不能爲0的，若是你想分子分母同時除以一個數，就必須保證這個數不是0，如今咱們是想除以 dx，這個 dx 就是咱們前面定義的無窮小量，它無限接近於 0 卻又不等於 0 。因此咱們暫且能夠約掉它，以下：

　　可是還剩下一個 dx，怎麼辦呢？一個有限的數加上一個無窮小量，結果是多少呢？彷佛還應該是這個數。這樣咱們彷佛又能夠去掉 dx，就像丟掉了一個等於 0 的數同樣，這樣最終的導數就能夠簡單地寫成這樣：

　　代表上看，當 x 愈來愈大（x > 0）的是， f ' (x) 的值也是愈來愈大的。而導數是用來表示函數的傾斜程度的，也就是說，當 x 愈來愈大的時候，曲線就愈來愈陡，這和圖像徹底一致了。

　　可是邏輯上就很奇怪了：一個無限趨近於 0 的無窮小量 dx 究竟是不是 0？若是是 0，那麼爲何可讓分子分母同時除以它來約分；若是不是 0 ，那麼爲何又能夠把它隨意捨棄？總不能同時等於零又不等於零吧。

　　怎麼辦呢？下面看導數的意義。

4.2 導數的意義

　　導數反映的是一個量變化快慢的程度，這其實就是一種廣義的「速度」。速度這個概念在科學裏很重要，當咱們說一輛車的速度很快的時候，咱們其實就是說這輛車的位移對時間的導數很大。

　　此外，有了導數，咱們就能垂手可得的求一條曲線的極值（極大值或極小值），爲何？由於只要導數不爲 0，曲線在這裏就是在上升（大於 0）或者降低（小於 0）的，只有導數等於 0 的地方，纔有多是一個極值點。

　　求極值也是很是重要的：軍人但願他們發射的導彈能夠飛得儘量的遠；商人但願他們的利潤能夠儘量的高；咱們也但願去哪都能走最近的路....

　　導數的這些用處不少人也知道，事實上，求曲線圍成的面積也好，求曲線的導數也好，在牛頓和萊布尼茲以前你們都已經知道了，但這些並非最重要的。

　　牛頓和萊布尼茲之因此偉大，之因此把他們視爲微積分的發明人，是由於他們在這些尋常事實背後發現了一個極不尋常的祕密：求面積和求導數，或者說積分和微分，這兩個看似徹底不搭邊的東西，居然是一對互逆的運算。

4.3 互逆運算

　　積分和微分是一堆互逆運算，這是微積分最核心的思想。把這個思想用數學語言描述出來就會獲得一個定理，這個定理叫微積分基本定理。

　　這也是牛頓和萊布尼茲在微積分裏最重要的發現，所以，微積分基本定理又叫牛頓-萊布尼茲公式。

　　求面積的時候，矩形的數量越多，矩形的面積之和就越接近真實面積。另外，在求瞬時速度的時候，咱們把時間段分的越細，每一個小時間段裏的平均速度就越接近瞬時速度，若是無窮細分，那麼無窮小時間段裏的平均速度就能夠認爲是瞬時速度了。也就是說，若是知道整個過程當中的瞬時速度（或者說是無窮小時間段內的速度），咱們就能精確地求出無窮小時間段內的距離，而後把全部距離加起來獲得精確地總距離，這就是積分。也就是說，經過積分的過程，咱們能從瞬時速度求出總距離。

　　另外一方面，要證實微分（求導）是這個過程的逆運算，咱們就得證實從總距離能夠求出瞬時速度。也就是說，若是已知任意時刻你從家到學校的距離，你經過微分（求導）就能把瞬時速度求出來。

　　距離對時間的求導，這就是速度啊。前面咱們也說了「導數是一種廣義的速度」。也就是說：距離除以時間，結果就是速度。你用平均距離除以平均時間獲得平均速度，用瞬時距離（某一時刻的距離）除以瞬時時間（無窮小時間片斷）天然就獲得了瞬時速度。這樣不就說完了。經過積分，咱們能從瞬時速度求出總距離來；經過微分，咱們能從總距離求出瞬時速度，這就說明積分和微分是一對互逆運算。

4.4 原函數

　　咱們知道了「積分和微分是互逆運算」，能給咱們帶來什麼呢？答案是：多一種選擇。由於既然積分和微分是互逆運算，那麼有些操做若是積分不擅長，我就能夠把它丟給微分。

　　什麼意思呢？咱們仍是以最開始求曲線圍成的面積爲例。咱們是這樣求拋物線 y=x²與x軸在0到1之間圍成面積的：若是用n個矩形去逼近，每一個矩形的底就是1/n，n個矩形的面積之和就是這樣：

　　當 n 區域無窮大的時候，後面兩項就等於無窮小，而後結果就只剩下第一項 1/3。

　　用這種方法，面對不一樣的曲線就得有不一樣的求和公式，最後還得保證相關項能夠變成無窮小丟掉。因此這種方法的複雜度和侷限性都很是大，沒法推廣。

　　可是，在偉大的牛頓和萊布尼茲發現了「積分和微分是互逆運算」以後，這一切就改變了。由於咱們有另外一種選擇：積分之路很差走，咱們能夠走微分。

　　怎麼走呢？咱們能夠求 f(x) = x²的導數，最終的結果是這樣的：

　　那麼反過來，若是咱們知道一個函數是f(x)=2x，難道我就猜不出到底是哪一個函數求導以後變成了f(x)=2x麼？固然能夠啊，咱們徹底能夠根據f(x)=2x反推出原來的函數是f(x)=x²+c。

　　爲何這裏多了一個常數c？由於常數求導的結果都是0，因此就多了這樣一個尾巴。

　　也就是說，f(x)=x²，f(x)=x²+1，f(x)=x²+3等函數的導數都是f(x)=2x，只憑f(x)=2x咱們沒法肯定最開始函數具體是什麼樣子。可是，咱們能夠肯定它必定就是x²加上一個常數c。因而，咱們就把求導以前原來的函數f(x)=x²+c稱爲的f(x)=2x的原函數。

　　好，下面是關鍵：積分是函數圍成面積的過程，速度 v 是經過積分就獲得了位移 s，在 v-t 圖像裏速度 v 圍成的面積就是位移 s；微分是求導的過程，對位移 s 求一次導數就可以獲得速度 v。

　　有了原函數之後，咱們也能夠根據速度 v 把（求導以後等於速度 v的）位移 s 給求出來，這時候位移 s 就是速度 v 的原函數（無非就是再加一個常數 c）。而原函數表示的位移 s 就是速度 v 圍成的面積，因而，原函數就有了求面積（積分）的效果。

　　也便是說，s 求導一次就變成了 v，那麼 v 反向求導一次就能夠獲得 s，這時候 s 是 v 的原函數。另外一方面，由於 s 求導一次能變成了 v，那麼 v 積分一次也能變成了 s（互逆運算）。因而，v經過求原函數和積分都能獲得 s，因此原函數 s 其實就是有了積分（曲線 v 圍成面積）的效果。

　　再簡單的說，由於積分和微分是一對互逆運算，因此你反向微分（求原函數）的話，天然就獲得和積分同樣的效果了。

　　因此，如今求曲線f(x)=x²和x軸在0到1區間裏圍成面積這個本來屬於積分的事情，如今就能夠經過反向微分（求原函數）來實現。

　　這是一次很是華麗的轉變，立刻你就會看到這種新方法會把問題簡化到什麼程度，並且，正是這種力量讓數學發生了根本性的改變。

5，微積分基本定理（牛頓-萊布尼茲公式）

5.1 牛頓-萊布尼茲公式

　　既然要反向微分的方法求面積，那咱們就去找f(x)=x²的原函數，看看究竟是哪一個函數求導以後變成了f(x)=x²。咱們用F(x)來表示這個原函數，那麼F(x)就是它（C爲常數）：

　　有了 f(x) = x² 的原函數F(x)之後，怎麼去求f(x)和x軸在0到1區間裏圍成的面積呢？前面已經分析了，原函數具備積分的效果，而積分就是曲線圍成的面積，因此原函數也能夠表示曲線圍成的面積（爲了方便理解，這裏咱們先不考慮常數c的影響，反正函數相減的時候常數c會抵消掉）。

　　所以，咱們要求f(x)與x軸在0到1區間內圍成的面積，直接用這個表明面積的原函數F(x)在1處的值F(1)減去在0處的值F(0)就完了：

　　F(1)-F(0)就是曲線在0到1之間圍成的面積，咱們這樣獲得的結果是1/3，跟咱們原來用矩形逼近計算的結果如出一轍，驚不驚喜，意不意外？可是它明顯比原來的方法簡單太多太多太多了，簡單到一箇中學生都能垂手可得地算出來，這纔是微積分的真正力量。

　　有了這樣的鋪墊，微積分基本定理（牛頓-萊布尼茲公式）就很是容易理解了：若是函數 f(x) 在區間 a到b之間連續（簡單理解就是曲線沒有斷），而且存在原函數 F(x) ，那麼就有：

　　這式子的左邊就是函數 f(x) 與 x 軸在 a到b 區間內圍成的面積，式子的右邊就是原函數在 b點和 a點的差。意義也很明確：函數反向求導獲得的原函數F(x) 原本就表示面積，那麼F(b)-F(a)天然就是這兩點之間的面積之差。因而公式左右兩邊就都表示面積。

　　 這就是微積分的基本定理，這就是微積分的核心思想。

　　能夠說「對函數求導，求原函數」比用原始定義，用無窮多個矩陣來逼近面積的方法要簡單的多，而且這種方法更具通常性。所以，微分和積分本來是兩門獨立的學問，如今被牛頓和萊布尼茲統一成微積分。這種1+1會產生大於2的力量。因而接下來的數學和科學獲得了空前的發展。

　　這裏再來回答一下上面將區間分爲四份，八份的微積分解：

5.2 進擊的微積分

　　誠然，微積分基本定理（牛頓-萊布尼茲公式）的發現是這場革命裏最核心的東西，至關於革命的指導思想，既然有了指導思想了，那麼接下來就是要擴大戰果了，把這個優秀的思想擴散到各個領域裏去，怎麼擴呢？

　　首先，微積分基本定理的核心思想就是用求原函數的方式來解決求面積的問題，因此求一個函數的原函數就成了問題的核心。那麼，咱們天然就要研究各類常見函數的求導和求原函數的方法。

　　這些弄清楚以後，咱們接下來就要問：由一些常見函數組成的複合函數，好比兩個函數相加減、相乘除、相嵌套複合等時候要怎麼求原函數？怎麼求積分？再擴展一下，如今知道了如何求面積，那要怎樣求體積，求曲線的長度呢？

　　而後，咱們就能夠把微積分的技術擴展到各類其它的領域了。好比，有了微積分，我就能夠研究彎曲的東西，曲線、曲面什麼的均可以研究。這就等於說是在用微積分來研究幾何，這就是微分幾何。

　　有了微積分，咱們發現不少物理定律均可以寫成微分方程的形式，有多個變量的時候就是偏微分方程。麥克斯韋方程組、波動方程，廣義相對論的場方程，都是這樣。

　　有了微積分，咱們就能夠計算各類不一樣曲線的長度。那麼，如何肯定在特定條件下最短的那條曲線呢？這裏就發展出了變分法，變分法配合最小做用量原理，在物理學的發展裏起到了極爲關鍵的做用。

　　因此微積分在接下來的兩個世紀裏就這樣瘋狂的擴張着，科學（尤爲是物理學）的發展須要微積分，微積分也須要從科學裏汲取養分，他們就這樣互相促進，互相成長，相親相愛。

5.3 柯西中值定理

　　彷佛還有一個問題沒有解決：那就是萊布尼茲將 dx 視爲一個無窮小量，可是無窮小怎麼說都說不圓。一個接近於0但又不等於0的無窮小量究竟是什麼呢？爲何有時候你能夠把它當作除數約掉（認爲他不等於0），但有時候有能夠隨意把它丟掉（認爲他等於0）？

　　因此柯西來了。

　　柯西深入的認識到：只要涉及數學概念，任何關於連續運動的一些先驗的直觀觀念，都是能夠避免，甚至是必須避免的。科學放棄了形而上學方面的努力，採用「可觀測」概念以後就迎來了大發展，那數學爲何不也這樣呢？

　　無窮小量是一個無限趨近於0可是又不能等於0的概念，也就是說他有一個極限位置0，你能夠想多接近就多接近，但就是沒法到達。

　　咱們知道實數跟數軸上的點是一一對應的。當咱們說一個量在無限趨近於0的時候，不少人腦海裏浮現的畫面就是一個點在數軸上不停的移動，從一個點移動到下一個點，一直靠近0這個點。

　　可是上圖是不對的。由於實數是稠密的。稠密就是說任意兩個點（實數）之間永遠都有無數個點（實數）。（你想一想：1和2之間有多少個數？）你覺得它能從A點移動到鄰近的下一個B點麼？很差意思，這個它還真作不到。

　　A和B之間永遠有無數個點，也就是說A點根本就沒有所謂的「下一個點」。你認爲我必定要走完了A點到B點之間全部的點才能到達B點，那就不可避免的陷入了芝諾悖論裏去了。由於你壓根就就不可能走完任何兩個點之間的全部點（由於是無窮多個），因此若是按照這種邏輯，你就根本「走不完」，因此芝諾的飛矢就飛不動了。

　　所以，面對這種連續的概念的時候，咱們就不該該使用這種「動態的」定義。你想經過「讓一個點在數軸上動態地運動來定義極限」是行不通的，這就是萊布尼茲的無窮小量栽跟頭的真正緣由。

　　數學家們通過一百多年的探索，失敗和總結，最後終於意識到了這點，這些思想在柯西這裏徹底成熟。因而，柯西徹底放棄了那種動態的定義方式，轉而採起了一種徹底靜態，徹底能夠描述測量的方式從新定義了極限，進而爲微積分奠基了紮實的基礎。

　　柯西對極限的新定義爲：當一個變量相繼的值無限的趨近於某個固定值的時候，若是他同這個固定值之間的差能夠隨意地小，那麼這個固定值就被稱爲它的極限。

　　有人看了這個定義以後就在犯嘀咕：這跟萊布尼茨說的不是同樣的麼？你還不是在用「無限趨近」啊，「隨意的小」啊這種跟「 無窮小」差很少的概念來定義極限麼？你說之前的定義是 動態的，柯西給整成了 靜態的，但是我看來看去，柯西這個定義好像也在動啊。什麼無限趨近，隨意的小，不是在動麼？

　　有這些疑問是正常的，畢竟是讓數學家們卡了一百多年的問題，不可能那麼太「顯而易見」。咱們再仔細看看柯西的定義，它跟之前的差異到底在哪？你看啊，柯西雖然也有用「無限趨近」，可是他只是用這個來描述這個現象，並非用它來作判決的。他的核心判決是後面一句：若是它同這個固定值之間的差能夠隨意的小，那麼它就是極限。

　　能夠隨意的小和你主動去無限逼近是徹底不同的。能夠隨意小的意思是：你讓我多小我就能夠多小。你讓我小於0.1，我就能小於0.1；你讓我小於0.01，我就能小於0.01；你讓我小於0.00…001，我就能夠小於0.00…001。只要你能說出一個肯定的值，無論你說的值有多小，我均可以讓它跟這個固定值的差比你更小。柯西說若是這樣的話，那麼這個固定值就是它的極限。

　　你們發現沒有，柯西學聰明，學雞賊了，他把這個判斷過程給顛倒了過來。之前是你要證實本身的極限是0，你就不停地變小，不停地朝0這個地方跑過去。可是，你和0之間永遠隔着無數個點，因此你永遠也跑不完，你也就不知道你要跑到何時去，這樣就暈了。

　　如今我學聰明瞭，這個難以界定的東西，這個燙手的山芋我無論了，我丟給你，我讓你先說。只要你說出一個數，你要我變得多小我就變得多小。你若是想讓我變成無窮小，那你就得先把無窮小是多少給我說出來，你說不出來的話那就不能怪我了。

　　柯西就經過這種方式把那些不可測的概念擋在了數學以外，由於你能具體說出來的數，那確定就都是「可觀測」的啊。你們再看看這個定義，再想一想以前萊布尼茨的想法，是否是這麼回事？

　　因而，柯西就這樣完美的甩開了那個招人煩的無窮小量。在柯西這裏，無窮小量不過就是一個簡單的極限爲0的量而已，一個「只要你能夠說出一個數，我確定就可讓我和0之間的差比你給的數更小」的量。這樣咱們就能把它說得清清楚楚，它也再也不有任何神祕了。

5.4 魏爾斯特拉斯和 ε-δ 極限

　　而後，魏爾斯特拉斯用徹底數學的語言改進了柯西的這段純文字的定義，獲得了最終的，也就是咱們如今教材裏使用的 ε-δ 極限定義。

　　根據柯西的思想，魏爾斯特拉斯說：你要判斷某個函數f(x)在某個地方a的極限是否是某個值L，關鍵就要看若是我任意說一個數ε（好比0.00…001或者任意其它的，注意是任意取，這裏用ε代替），你能不能找到一個x的取值範圍（用δ來衡量），讓這個範圍裏的函數值f(x)與那個值L之間的差（用套個絕對值的|f(x)-L|表示）小於ε。若是你總能找到這樣的δ，那我就說函數f(x)在a點的極限爲L。

　　用精練的數學語言表述上面的話就是：當且僅當對於任意的ε，存在一個δ>0，使得只要0<|x-a|<δ，就有|f(x)-L|<ε，那麼咱們就說f(x)在a點的極限爲L。記作：

　　定義裏的 Lim 就是極限的英文單詞 limit的縮寫，這個箭頭 x->a 也很是形象的表達了極限這個概念。

　　這個定義就真正作到了徹底「靜態」，再也不有任何運動的痕跡（連柯西說的「無限趨近」，「隨意的小」都沒有了），也再也不有任何說不清的地方。從定義你也能清楚的看出來：它根本不關心你是如何逼近L的，飛過來，調過去它都無論，只要最後的差比 ε 小就行，我就認可你是個人極限。

　　這裏要特別注意的是 ε 是任意的，任意就是說隨便 ε 取什麼你都要找到對應的 δ，你不能說有 10 個 ε 知足條件就說這是極限。

　　看個例子，咱們考慮最簡單的 f(x) = 1/x，當x的取值（x>0）愈來愈大的時候，這個函數的值就會愈來愈小：：f(1)=1，f(10)=0.1，f(100)=0.01，f(1000)=0.001，……

　　看的出來，當x 的取值愈來愈大的時候，f(x)的值會愈來愈趨近於0。因此，函數 f(x) 在無窮遠處的極限值應該是 0，也就是說：

　　這個結論是很明顯的，接下來咱們就來看看如何用 ε-δ 定義來講這個事。

　　按照定義，咱們要取一個任意小的ε，假設這裏咱們取ε=0.1，那麼咱們就要去找一個δ，看能不能找到一個範圍讓|f(x)-0|<0.1，顯然只須要x>10就好了；取ε=0.01，就只須要x>100就好了；任意給一個ε，咱們顯然都能找到一個數，當x大於這個數的時候知足|f(x)-0|<ε，這樣就OK了。

　　因而，咱們就構建了一個邏輯嚴密，再也不有任何「說不清」概念的極限理論。有了這個堅實的地基，咱們就能夠放心地在上面蓋房子了。那個漂泊了一百多年，那個被幽靈般的無窮小量纏繞了一百多年的微積分，即將迎來新生。

6，微積分的重構

6.1 積分的重建

　　先看積分，咱們以前認爲曲線圍成的面積是無數個寬度爲無窮小量的矩形面積之和，因而咱們在這裏就被無窮小量纏上了。有了ε-δ極限以後，咱們就能夠刷新一下咱們對積分的認知了：從如今起，咱們把曲線圍成的面積當作一個極限，而再也不是無數個無窮小量的矩形面積之和。

　　什麼意思呢？假設咱們用 1個矩形逼近曲線圍成的面積的時候，咱們就把這個矩形的面積記爲S1，用兩個矩形逼近的面積之和記爲S2，一樣的，咱們記下S3， S4， S5，...

　　通常狀況下，若是咱們用 n個矩形去逼近這個面積，這 n 個矩形的面積之和就記爲 Sn。若是這個 Sn 的極限存在，也就是說，隨便你說一個數字 ε，我都能找到一個 n 的範圍，讓 Sn和A之間的差 |Sn-A| 小於你給定的這個數字 ε。那麼，A就是這個Sn的極限。

　　因而，咱們就說：曲線圍成的面積就是這個極限A，它是 n 個矩形面積之和這個序列 Sn的極限。

　　因此咱們把這個極限過程表示的面積A定義爲函數 f(x) 從 a 到 b 上的積分：

　　這樣，咱們的積分就成了一個由ε-δ語言精肯定義的極限。這裏沒有那個等於0又不等於0的無窮小量，一切都清清楚楚、明明白白，沒有含糊的地方，這就是第二次數學危機的終極解決之道。

　　這樣處理雖然再也不那麼直觀，可是它很是精確和嚴密，這是符合數學的精神的。直觀雖然能幫助咱們更好的感覺數學，可是若是失去了嚴密性，數學將什麼都不是。

6.2 導數的重建

　　積分解決了，微分也是同樣，有了 ε-δ定義 以後，咱們就再不能把導數當作兩個無窮小量的比值（dy/dx），而是把導數也當作一個極限。

　　就是說函數在某一點的導數就是這點切線的斜率，咱們前面提到，切線就是當割線的兩點不停的靠近，當他們的距離變成無窮小時決定的直線。

　　很明顯，這個定義是依賴無窮小量的，咱們在要用ε-δ定義的極限來代替這個無窮小量。因此，切線就應該被理解爲割線的極限，那麼切線的斜率（也就是這點的導數）天然就是割線斜率的極限，因此導數f(x)’也天然而然地成了一個極限。

　　因爲割線的斜率就是用這兩點的縱座標之差f(x+Δx)-f(x)除以這兩點的橫座標之差（x+Δx-x=Δx），而導數f(x)’是割線斜率的極限。那麼，咱們在割線斜率的前面加一個極限符號就能夠表示導數f(x) ' 了：

　　這纔是導數的真正定義，它是一個極限，而再也不是兩個無窮小量 dy 與 dx 的商 dy/dx。也就是說，按照極限的ε-δ定義 的含義，這個導數 f '(x) 的真正含義是：你任意給一個 ε ，我都能讓割線的斜率與這個值的差比你給的 ε 更小。

6.3 微分的重建

　　萊布尼茲當年認爲導數是兩個無窮小量 dy 和 dx 的商，因此他用 dy/dx 來表示導數。雖然如今導數再也不是這個意思，可是萊布尼茲當年精心發明的這一套符號確實好用，因而咱們就繼續沿用了。也就是說咱們如今仍然使用 dy/dx 來表示導數，可是如今 dy/dx 是一個極限，而再也不是兩個無窮小量的商。

　　微分的嚴格定義是這樣的：對於 Δy 是否存在一個關於 Δx 爲線性的無窮小 A*Δx（A爲常數），使它與 Δy 的差是較 Δx 更高階的無窮小，也就是說下面這個式子是否成立：

　　o(Δx) 就表示 Δx 的高階無窮小，從字面上理解，高階無窮小就是比無窮小還無窮小。當 Δx 慢慢趨向於 0 的時候，o(Δx) 可以比 Δx 以更快的速度趨向於 0。好比當 Δx 減小爲原來的 1/10 的時候， o(Δx) 就減小到原來的 1/100,1/1000甚至更多。

　　若是這個式子成立，咱們就說函數 f(x) 是可微的，dy=A*Δx 就說函數的微分。由於這是一個線性函數，因此咱們說微分 dy 是 Δy 的線性主題。

7，定積分

7.1 定積分的定義

　　定積分是積分的一種，是函數 f(x) 在區間 [a,b]上積分和的極限。

　　注意定積分和不定積分的關係：若定積分存在，則它是一個具體的數值，而不定積分是一個函數表達式，它們僅僅在數學上有一個計算關係（牛頓-萊布尼茲公式）。

　　一個函數，能夠存在不定積分，而不存在定積分；也能夠存在定積分，而不存在不定積分。一個連續函數，必定存在定積分和不定積分；若只有有限個間斷點，則定積分存在；如有跳躍間斷點，則原函數必定不存在，即不定積分必定不存在。

　　當 ||Δx|| -> 0 時，總和 S 老是趨於肯定的極限 I，則稱極限 I爲函數 f(x)，在曲線 [a, b] 上的定積分定義用公式表達以下：

　　積分值和被積函數與積分曲線有關，與積分遍歷字母無關。

　　當函數 f(x) 在曲線 [a, b] 上的定積分存在的時候，稱 f(x) 在區間 [a, b]上可積。

　　定積分的幾何含義：

　　面積的正負值：

　　代數和，它有正負之分，在 x 軸之上爲正，在軸之下爲負。

　　那麼如何利用定積分的幾何意義判判定積分的正負？

　　若是被積函數在積分區間總大於零，積分區間上限大於下限，則定積分爲正，由於表示的是積分函數在積分上下限間與 X 軸圍成的一個面積；若是被積函數在積分區間總小於零，積分區間上限大於下限，則定積分爲負。

7.2 定積分的性質

　　定積分的性質以下：

定理1：

　　設 f(x) 在區間 [a, b] 上連續，則 f(x) 在 [a, b]上可積

定理2：

　　設 f(x) 區間 [a, b] 上有界，且只有有限個間斷點，則 f(x) 在 [a, b] 上可積

定理3：

　　設 f(x) 在區間 [a, b]上單調，則 f(x) 在 [a, b] 上可積

積分第一中值定理

　　積分第一中值定理是積分中值定理的推廣之一，此外還有積分第二中值定理。積分中值定理揭示了一種將極分化爲函數值，或者將複雜函數的積分化爲簡單函數的積分的方法。是數學分析的基本定理和重要手段，在求極限，斷定某些性質點，估計積分值等方面應用普遍。

　　定理定義：若是函數 f(x) 在閉區間 [a, b] 上連續， g(x) 在 [a, b] 上不變號，而且 g(x) 在閉區間 [a, b] 上是可積的，則在 [a, b]上至少存在一個點 ε ，使下式成立：

　　若是函數 f(x) 在閉區間 [a, b] 上連續，則在積分區間 [a, b] 上至少存在一個點 ζ，使得：

積分第二中值定理：

　　積分第二中值定理是與積分第一中值定理相互獨立的一個定理，屬於積分中值定理。它能夠用來證實Dirichlet-Abel 反常，Riemann 積分判別法。

　　定理內容：設 f(x) 在 [a, b] 上可積， g(x) 在 [a, b] 上單調，則存在 ζ 屬於 [a, b]，使得：

積分上限函數：

　　設函數 f(x) 在區間 [a, b] 上可積，且對於定積分 ∫^x_bf(x)dx 每個取值的 x 都有一個對應的定積分值，則稱變上限定積分 ∫_a ^x f(t)dt 爲 f(x) 的積分上限函數，記爲：

　　若是 f(x) 在區間 [a, b] 上連續，則積分上限函數就是 f(x) 在 [a, b] 上的原函數。

　　當 f(x) >=0 時， Φ(x) 在集合上表示爲右側鄰邊能夠變更的曲線梯形面積，下圖中的陰影部分：

　　定理：設函數 f(x) 在區間 [a, b] 上連續，則積分上限函數：

　　在 [a, b] 上可導，而且：

7.3 實例

　　對於定積分的定義，有四個步驟：分割，近似，求和，取極限，具體以下：

　　1，求曲線 y=x² 與 x=1, y=0 所圍成的區域的面積

　　2，利用定義計算定積分 ∫¹₀x²dx

　　3，利用定義計算定積分 ∫^π/2₀(2cosx + sinx -1)dx

　　4，計算由曲線 y²=2x 和直線 y=x-4 所圍成的圖形的面積

8，微積分的總結

8.1 微分學的思想

　　微分學的核心思想是逼近。其中：

一階導數：線性逼近
二階導數：二次逼近
導數計算：求導法則

8.2 微分學的主要做用

　　微積分的主要做用是：

1，求解函數的極限
2，分析函數的性質

8.3 微積分知識點總結

　　下面列出機器學習和深度學習中所須要的微積分知識點，雖然前面都已經學習過了，可是這裏再整理起來。

　　1，極限：極限是高等數學和初等數學的分水嶺，也是微積分的基石，是倒數，微分，積分的基礎。雖然在機器學習裏不直接用到極限的知識，但要理解導數和積分，它是必須的。

　　2，上確界和下确界：這個在機器學習中會常常用到，好比論文中常出現的 sup 和 inf。

　　3，導數：其重要性衆所周知，求函數的極限須要它，分析函數的性質須要它。典型的如梯度降低法的推導，Logistic函數導數的計算。因此熟練地計算函數的導數是基本功。

　　4，Lipschitz 連續性：這一律唸對分析算法的性質卻頗有用，在GAN，深度學習算法的穩定性，泛化性能分析中都有用武之地。

　　5，導數與函數的單調性：某些算法的推導，如神經網絡的激活函數，AdaBoost算法，都須要研究函數的單調性。

　　6，導數與函數的極限：這個在機器學習中處於中心位置，大部分優化問題都是連續優化問題，所以能夠經過求導爲0的點而求函數的極限，以實現最小化損失函數，最大化似然函數等目標。

　　7，導數與函數的凹凸性：在凸優化中，Jensen不等式的證實中都有它的應用。

　　8，泰勒公式：又一個核心知識點，在優化算法中普遍使用，從梯度降低法，牛頓法，擬牛頓法，到AdaBoost算法，梯度提高算法，XGBoost算法的推導都離不開它。

　　9，不定積分：積分在機器學習中使用的相對較小，主要用於概念的計算中，它是定積分的基礎。

　　10，定積分：包含廣義積分，被用於機率論的計算中。機器學習中很大一類算法是機率型算法，如貝葉斯分類器，機率圖模型，變分推導等。這些地方都涉及到對機率密度函數進行積分。

　　11，變上限積分：分佈函數是典型的變上限積分函數，一樣主要用於機率計算中。

　　12，牛頓-萊布尼茲公式：在機器學習中不多直接使用，但它是微積分中最重要的公式之一，爲定積分的計算提供了依據。

　　13，偏導數：重要性不用多說，機器學習絕大多數函數都是多元函數，要求其極限，偏導數是繞不開的。

　　14，梯度：決定了多元函數的單調性和極限，梯度降低法的推導離不開它。幾乎全部連續優化算法都須要計算函數的梯度值，且以尋找梯度爲0的點做爲目標。

　　15，高階偏導數：肯定函數的極值離不開它，光有梯度值還沒法肯定函數的極值。

　　16，鏈式法則：一樣使用普遍，各類神經網絡的反向傳播算法都依賴於鏈式法則。

　　17，Hessian 矩陣：決定了函數的極值凹凸性。

https://www.zhihu.com/question/336322284/answer/918067537

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。