算法工程獅3、數學基礎 機率論及統計學

傳統機器學習對於機率論的使用可謂是無所不用其及。機器學習

機率論

1.全機率公式與貝葉斯公式

全機率公式
$$P(A)=\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)$$
貝葉斯公式
$$P(B_i|A)=\dfrac{P(A,B_i)}{P(A)}=\dfrac{P(B_i)P(A|B_i)}{\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)}$$
貝葉斯公式是貝葉斯統計學的核心利器。貝葉斯派認爲事件發生的機率不像頻率派那樣單純,而是應該加入人類的先驗,使得實驗結果不至於誤差太大。換句話說,貝葉斯派認爲參數的取值也符合必定的機率分佈,不是單純的從觀測推測。函數

2.隨機變量機率分佈與機率密度

指數分佈

$$f(x)=\begin{cases}\lambda e^{-\lambda x},x>0 \\\ 0,x<=0 \end{cases}$$
指數分佈無記憶性指的是$t_0>0,t>0,P(x>t_0+t|x>t_0)=P(x>t)$學習

伯努利分佈

$P(X=x)=\phi^x(1-\phi)^{1-x},X非0即1$優化

正態分佈

當缺少先驗知識時,選用高斯準沒錯。由中心極限定理可知,獨立同分布的變量相加符合高斯分佈。另外,在具備相同方差的全部可能的機率分佈中,高斯分佈是對模型加入先驗知識最少的分佈
若$X\sim N(\mu,\sigma^2),Y=aX+b,則Y\sim N(a\mu+b,a^2\sigma^2)$事件

二元隨機變量$f(x,y)$
  • 邊際機率密度$f_X(x)=\int f(x,y)dy$
  • 條件機率密度$f(y|x)=\dfrac{f(x,y)}{f_X(x)}$
  • 若兩個隨機變量X和Y相互獨立,則機率分佈函數

$$F(x,y)=F_X(x)\cdot F_Y(y)\Leftrightarrow P(X\leq x,Y\leq y)=P(X\leq x)\cdot P(Y\leq y)$$
而機率密度函數$f(x,y)=f_X(x)\cdot f_Y(y)$,等價地,幾乎到處成立it

Laplace分佈和Dirac分佈

拉普拉斯分佈容許在μ處設置峯值,是離散變量分佈。$Laplace(X;\mu,\gamma)=\dfrac{1}{2\gamma}e^{-\dfrac{|x-\mu|}{\gamma}}$
狄雷克分佈對應於連續隨機變量,在X=μ處無限高$P(X)=\delta(X-x^{(i)})$,對於經驗分佈,使用狄雷克分佈能夠將頻率變爲機率,這樣在訓練集上似然是最大的。
其餘,對於任意平滑的機率密度函數,均可以用高斯分佈近似。變量

3.指望與方差

  • 若X,Y相互獨立,則$E(XY)=E(X)E(Y)$
  • $D(X)=E(X^2)-[E(X)]^2$
  • $D(nX)=n^2D(X)$
  • $D(X+Y)=D(X)+D(Y)+2E[(X-E(X))(Y-E(Y))],若X和Y相互獨立,則D(X+Y)=D(X)+D(Y)$
  • 協方差就是$Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)(Y)$,根據上條,相互獨立則協方差爲0
  • 相關係數$\rho_{XY}=\dfrac{Cov(X,Y)}{\sqrt{D(X)\cdot D(Y)}}$,相關係數在[-1,1]之間,越大越相關,接近0爲不相關

4.大數定律

依機率收斂

頻率依機率收斂於P,背過也就理解了$\lim\limits_{n\rightarrow \infin}P(|\frac{n_A}{n}-P|\ge\epsilon)=0$ftp

辛欽大數定律

n個獨立同分布的隨機變量指望爲μ;或者說當n足夠大時,隨機變量之和的指望依機率收斂於μ。若是想估計X的指望,只須要從X分佈中取足夠多的點,平均值依機率收斂於μ。lambda

中心極限定理

獨立同分布的隨機變量之和近似於正態分佈im

5.條件機率的鏈式法則

$$P(X^{(1)},X^{(2)},...,X^{(n)})=P(X^{(1)})\prod_{i=2}^{n}P(X^{(i)}|X^{(1)},...,X^{(i-1)})$$

統計學

1.統計量與抽樣分佈

統計量就是樣本的不含未知參數的函數,知道了樣本,統計量也就肯定了
抽樣分佈就是統計量的分佈,常見的抽樣分佈有:

  • $\chi^2$分佈:$\chi^2=\sum\limits_{i=1}^{n}X_i^2$,稱爲自由度爲n的卡方分佈$E(\chi^2)=n,D(X^2)=2n$
  • t分佈:$T=\dfrac{X}{\sqrt{Y/N}},X\sim N(0,1),Y\sim \chi^2(N)$
  • F分佈:$F=\dfrac{X/n_1}{Y/n_2},X,Y\sim \chi^2$

2.整體與樣本分佈

若是整體分佈$X\sim N(\mu,\sigma^2),X_1,X_2,...,X_n$是樣本,那麼
$$\bar{X}=\frac{1}{n}\sum \limits_{i=1}^{n}X_i$$

$$S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2$$
其中
$$E(\bar{X})=E(\frac{1}{n}\sum X_i)=\frac{1}{n}\sum (X_i)=\mu$$

$$D(\bar{X})=D(\frac{1}{n}\sum X_i)=\frac{1}{n^2}\sum D(X_i)=\dfrac{\sigma^2}{n}$$
由上面也能夠看出,標準差=$\dfrac{\sigma}{\sqrt{n}}$,以小於樣本數量線性的速度降低,好比梯度降低中,梯度的估計的標準差以小於樣本數量線性的速度降低,收益的增速隨數量增大逐漸降低,所以GD的批量太大可能代價和收益並非正比

3.點估計

對於參數的估計,咱們每每但願找到參數的一個合理且優秀的值就足夠了,而不是找到參數的機率分佈。這裏的參數,能夠是事件發生的機率,能夠是函數的實際參數等等。
點估計有兩種,矩估計和極大似然估計,矩估計就是樣本矩代替整體矩估計,來推出參數。而極大似然估計在統計學習中真是太太太經常使用了,它屬於頻率派的思想,簡單的經過樣原本求解參數,而不加入任何先驗
極大似然估計MLE思想很簡單:$\theta_{MLE}=\argmax\limits_\theta\prod_{i=1}^nP(X_i;\theta)$,爲了計算方便,使用log將連乘轉換爲加法$\theta_{MLE}=\argmax\limits_\theta\sum_{i=1}^n\log P(X_i;\theta)$,後面會專門寫一篇介紹極大似然估計

4.估計量的評價準則

前面不是說了參數估計嘛,參數估計出來總要有個評價標準看你評價的好很差,那參數的評價標準一共有四條:

  • 無偏性:$E(\hat{\theta})=\theta,則稱估計量無偏,當\lim\limits_{n\rightarrow \infin}E(\hat{\theta})=\theta稱爲漸近無偏估計量,好比:E(\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2)=\sigma^2$
  • 有效性:若是$D(\hat{\theta_1})\leq D(\hat{\theta_2}),則稱\hat{\theta_1}比\hat{\theta_2}有效$
  • 均方偏差性:$mse=E(\hat{\theta}-\theta)^2,若是mse(\hat{\theta_1})\leq mse(\hat{\theta_2}),則\hat{\theta_1}在此方面優秀,注意,有時均方偏差性比無偏性更重要$
  • 相合性:若$\hat{\theta}$依機率收斂於$\theta$,則稱爲相合估計量

好比,由有效性:$\hat{\theta}_k=\dfrac{1}{k}(X_1+...+X_k)$做爲估計參數,則$D(\hat{\theta}_k)=\dfrac{1}{k}\sum D(X_i)=\dfrac{\sigma^2}{k}$,當k增長時,D降低,因此由有效性,當樣本越多時,參數估計越有效
再好比,由均方偏差準則可知,當n很小時,$S^2優於二階矩B^2$,當n上升時,兩者無差異

信息論及其餘

1.信息論

  • 自信息:單個事件的不肯定性,越大越不肯定,越混亂,可是信息也越多

$$I(x)=-logP(x)$$

  • 香農熵:分佈的不肯定性,上同

$$H(X)=E_{X\sim p}(I(X))=-E_{X\sim p}logP(x)$$

  • KL散度:衡量兩個分佈間的差別,越小越類似

$$D_{KL}(P||Q)=E_{X\sim p}[log\dfrac{P(X)}{Q(X)}]=E_p(logP-logQ)$$

  • 交叉熵:等價於針對Q最小化KL散度,由於P是已知的,因此爲了儘可能使分佈差別小,因此只優化Q便可

$$H(P,Q)=-E_{X\sim p}logQ(X)=-\sum\limits_{x\in X}P(x)logQ(x)$$
其中,P爲真實分佈,Q爲預測分佈

2.其餘

$softplus:log(1+e^x)$:激活函數的一種,在後面會看到它是Relu的平滑版本,但效果通常

相關文章
相關標籤/搜索