算法工程獅3、數學基礎機率論及統計學

時間 2021-02-15

原文原文鏈接

傳統機器學習對於機率論的使用可謂是無所不用其及。機器學習

機率論

1.全機率公式與貝葉斯公式

全機率公式
$$P(A)=\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)$$
貝葉斯公式
$$P(B_i|A)=\dfrac{P(A,B_i)}{P(A)}=\dfrac{P(B_i)P(A|B_i)}{\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)}$$
貝葉斯公式是貝葉斯統計學的核心利器。貝葉斯派認爲事件發生的機率不像頻率派那樣單純，而是應該加入人類的先驗，使得實驗結果不至於誤差太大。換句話說，貝葉斯派認爲參數的取值也符合必定的機率分佈，不是單純的從觀測推測。函數

2.隨機變量機率分佈與機率密度

指數分佈

$$f(x)=\begin{cases}\lambda e^{-\lambda x},x>0 \\\ 0,x<=0 \end{cases}$$
指數分佈無記憶性指的是$t_0>0,t>0,P(x>t_0+t|x>t_0)=P(x>t)$學習

伯努利分佈

$P(X=x)=\phi^x(1-\phi)^{1-x}，X非0即1$優化

正態分佈

當缺少先驗知識時，選用高斯準沒錯。由中心極限定理可知，獨立同分布的變量相加符合高斯分佈。另外，在具備相同方差的全部可能的機率分佈中，高斯分佈是對模型加入先驗知識最少的分佈。
若$X\sim N(\mu,\sigma^2),Y=aX+b,則Y\sim N(a\mu+b,a^2\sigma^2)$事件

二元隨機變量$f(x,y)$

邊際機率密度$f_X(x)=\int f(x,y)dy$
條件機率密度$f(y|x)=\dfrac{f(x,y)}{f_X(x)}$
若兩個隨機變量X和Y相互獨立，則機率分佈函數

$$F(x,y)=F_X(x)\cdot F_Y(y)\Leftrightarrow P(X\leq x,Y\leq y)=P(X\leq x)\cdot P(Y\leq y)$$
而機率密度函數$f(x,y)=f_X(x)\cdot f_Y(y)$,等價地，幾乎到處成立it

Laplace分佈和Dirac分佈

拉普拉斯分佈容許在μ處設置峯值，是離散變量分佈。$Laplace(X;\mu,\gamma)=\dfrac{1}{2\gamma}e^{-\dfrac{|x-\mu|}{\gamma}}$
狄雷克分佈對應於連續隨機變量，在X=μ處無限高$P(X)=\delta(X-x^{(i)})$，對於經驗分佈，使用狄雷克分佈能夠將頻率變爲機率，這樣在訓練集上似然是最大的。
其餘，對於任意平滑的機率密度函數，均可以用高斯分佈近似。變量

3.指望與方差

若X,Y相互獨立，則$E(XY)=E(X)E(Y)$
$D(X)=E(X^2)-[E(X)]^2$
$D(nX)=n^2D(X)$
$D(X+Y)=D(X)+D(Y)+2E[(X-E(X))(Y-E(Y))]，若X和Y相互獨立，則D(X+Y)=D(X)+D(Y)$
協方差就是$Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)(Y)$，根據上條，相互獨立則協方差爲0
相關係數$\rho_{XY}=\dfrac{Cov(X,Y)}{\sqrt{D(X)\cdot D(Y)}}$，相關係數在[-1,1]之間，越大越相關，接近0爲不相關

4.大數定律

依機率收斂

頻率依機率收斂於P，背過也就理解了$\lim\limits_{n\rightarrow \infin}P(|\frac{n_A}{n}-P|\ge\epsilon)=0$ftp

辛欽大數定律

n個獨立同分布的隨機變量指望爲μ；或者說當n足夠大時，隨機變量之和的指望依機率收斂於μ。若是想估計X的指望，只須要從X分佈中取足夠多的點，平均值依機率收斂於μ。lambda

中心極限定理

獨立同分布的隨機變量之和近似於正態分佈im

5.條件機率的鏈式法則

$$P(X^{(1)},X^{(2)},...,X^{(n)})=P(X^{(1)})\prod_{i=2}^{n}P(X^{(i)}|X^{(1)},...,X^{(i-1)})$$

統計學

1.統計量與抽樣分佈

統計量就是樣本的不含未知參數的函數，知道了樣本，統計量也就肯定了
抽樣分佈就是統計量的分佈，常見的抽樣分佈有：

$\chi^2$分佈：$\chi^2=\sum\limits_{i=1}^{n}X_i^2$，稱爲自由度爲n的卡方分佈$E(\chi^2)=n,D(X^2)=2n$
t分佈：$T=\dfrac{X}{\sqrt{Y/N}},X\sim N(0,1),Y\sim \chi^2(N)$
F分佈：$F=\dfrac{X/n_1}{Y/n_2},X,Y\sim \chi^2$

2.整體與樣本分佈

若是整體分佈$X\sim N(\mu,\sigma^2),X_1,X_2,...,X_n$是樣本，那麼
$$\bar{X}=\frac{1}{n}\sum \limits_{i=1}^{n}X_i$$

$$S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2$$
其中
$$E(\bar{X})=E(\frac{1}{n}\sum X_i)=\frac{1}{n}\sum (X_i)=\mu$$

$$D(\bar{X})=D(\frac{1}{n}\sum X_i)=\frac{1}{n^2}\sum D(X_i)=\dfrac{\sigma^2}{n}$$
由上面也能夠看出，標準差=$\dfrac{\sigma}{\sqrt{n}}$，以小於樣本數量線性的速度降低，好比梯度降低中，梯度的估計的標準差以小於樣本數量線性的速度降低，收益的增速隨數量增大逐漸降低，所以GD的批量太大可能代價和收益並非正比

3.點估計

對於參數的估計，咱們每每但願找到參數的一個合理且優秀的值就足夠了，而不是找到參數的機率分佈。這裏的參數，能夠是事件發生的機率，能夠是函數的實際參數等等。
點估計有兩種，矩估計和極大似然估計，矩估計就是樣本矩代替整體矩估計，來推出參數。而極大似然估計在統計學習中真是太太太經常使用了，它屬於頻率派的思想，簡單的經過樣原本求解參數，而不加入任何先驗。
極大似然估計MLE思想很簡單：$\theta_{MLE}=\argmax\limits_\theta\prod_{i=1}^nP(X_i;\theta)$，爲了計算方便，使用log將連乘轉換爲加法$\theta_{MLE}=\argmax\limits_\theta\sum_{i=1}^n\log P(X_i;\theta)$，後面會專門寫一篇介紹極大似然估計

4.估計量的評價準則

前面不是說了參數估計嘛，參數估計出來總要有個評價標準看你評價的好很差，那參數的評價標準一共有四條：

無偏性：$E(\hat{\theta})=\theta，則稱估計量無偏，當\lim\limits_{n\rightarrow \infin}E(\hat{\theta})=\theta稱爲漸近無偏估計量，好比：E(\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2)=\sigma^2$
有效性：若是$D(\hat{\theta_1})\leq D(\hat{\theta_2}),則稱\hat{\theta_1}比\hat{\theta_2}有效$
均方偏差性：$mse=E(\hat{\theta}-\theta)^2,若是mse(\hat{\theta_1})\leq mse(\hat{\theta_2}),則\hat{\theta_1}在此方面優秀，注意，有時均方偏差性比無偏性更重要$
相合性：若$\hat{\theta}$依機率收斂於$\theta$，則稱爲相合估計量

好比，由有效性：$\hat{\theta}_k=\dfrac{1}{k}(X_1+...+X_k)$做爲估計參數，則$D(\hat{\theta}_k)=\dfrac{1}{k}\sum D(X_i)=\dfrac{\sigma^2}{k}$，當k增長時，D降低，因此由有效性，當樣本越多時，參數估計越有效
再好比，由均方偏差準則可知，當n很小時，$S^2優於二階矩B^2$，當n上升時，兩者無差異