傳統機器學習對於機率論的使用可謂是無所不用其及。機器學習
全機率公式
$$P(A)=\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)$$
貝葉斯公式
$$P(B_i|A)=\dfrac{P(A,B_i)}{P(A)}=\dfrac{P(B_i)P(A|B_i)}{\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)}$$
貝葉斯公式是貝葉斯統計學的核心利器。貝葉斯派認爲事件發生的機率不像頻率派那樣單純,而是應該加入人類的先驗,使得實驗結果不至於誤差太大。換句話說,貝葉斯派認爲參數的取值也符合必定的機率分佈,不是單純的從觀測推測。函數
$$f(x)=\begin{cases}\lambda e^{-\lambda x},x>0 \\\ 0,x<=0 \end{cases}$$
指數分佈無記憶性指的是$t_0>0,t>0,P(x>t_0+t|x>t_0)=P(x>t)$學習
$P(X=x)=\phi^x(1-\phi)^{1-x},X非0即1$優化
當缺少先驗知識時,選用高斯準沒錯。由中心極限定理可知,獨立同分布的變量相加符合高斯分佈。另外,在具備相同方差的全部可能的機率分佈中,高斯分佈是對模型加入先驗知識最少的分佈。
若$X\sim N(\mu,\sigma^2),Y=aX+b,則Y\sim N(a\mu+b,a^2\sigma^2)$事件
$$F(x,y)=F_X(x)\cdot F_Y(y)\Leftrightarrow P(X\leq x,Y\leq y)=P(X\leq x)\cdot P(Y\leq y)$$
而機率密度函數$f(x,y)=f_X(x)\cdot f_Y(y)$,等價地,幾乎到處成立it
拉普拉斯分佈容許在μ處設置峯值,是離散變量分佈。$Laplace(X;\mu,\gamma)=\dfrac{1}{2\gamma}e^{-\dfrac{|x-\mu|}{\gamma}}$
狄雷克分佈對應於連續隨機變量,在X=μ處無限高$P(X)=\delta(X-x^{(i)})$,對於經驗分佈,使用狄雷克分佈能夠將頻率變爲機率,這樣在訓練集上似然是最大的。
其餘,對於任意平滑的機率密度函數,均可以用高斯分佈近似。變量
頻率依機率收斂於P,背過也就理解了$\lim\limits_{n\rightarrow \infin}P(|\frac{n_A}{n}-P|\ge\epsilon)=0$ftp
n個獨立同分布的隨機變量指望爲μ;或者說當n足夠大時,隨機變量之和的指望依機率收斂於μ。若是想估計X的指望,只須要從X分佈中取足夠多的點,平均值依機率收斂於μ。lambda
獨立同分布的隨機變量之和近似於正態分佈im
$$P(X^{(1)},X^{(2)},...,X^{(n)})=P(X^{(1)})\prod_{i=2}^{n}P(X^{(i)}|X^{(1)},...,X^{(i-1)})$$
統計量就是樣本的不含未知參數的函數,知道了樣本,統計量也就肯定了
抽樣分佈就是統計量的分佈,常見的抽樣分佈有:
若是整體分佈$X\sim N(\mu,\sigma^2),X_1,X_2,...,X_n$是樣本,那麼
$$\bar{X}=\frac{1}{n}\sum \limits_{i=1}^{n}X_i$$
$$S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2$$
其中
$$E(\bar{X})=E(\frac{1}{n}\sum X_i)=\frac{1}{n}\sum (X_i)=\mu$$
$$D(\bar{X})=D(\frac{1}{n}\sum X_i)=\frac{1}{n^2}\sum D(X_i)=\dfrac{\sigma^2}{n}$$
由上面也能夠看出,標準差=$\dfrac{\sigma}{\sqrt{n}}$,以小於樣本數量線性的速度降低,好比梯度降低中,梯度的估計的標準差以小於樣本數量線性的速度降低,收益的增速隨數量增大逐漸降低,所以GD的批量太大可能代價和收益並非正比
對於參數的估計,咱們每每但願找到參數的一個合理且優秀的值就足夠了,而不是找到參數的機率分佈。這裏的參數,能夠是事件發生的機率,能夠是函數的實際參數等等。
點估計有兩種,矩估計和極大似然估計,矩估計就是樣本矩代替整體矩估計,來推出參數。而極大似然估計在統計學習中真是太太太經常使用了,它屬於頻率派的思想,簡單的經過樣原本求解參數,而不加入任何先驗。
極大似然估計MLE思想很簡單:$\theta_{MLE}=\argmax\limits_\theta\prod_{i=1}^nP(X_i;\theta)$,爲了計算方便,使用log將連乘轉換爲加法$\theta_{MLE}=\argmax\limits_\theta\sum_{i=1}^n\log P(X_i;\theta)$,後面會專門寫一篇介紹極大似然估計
前面不是說了參數估計嘛,參數估計出來總要有個評價標準看你評價的好很差,那參數的評價標準一共有四條:
好比,由有效性:$\hat{\theta}_k=\dfrac{1}{k}(X_1+...+X_k)$做爲估計參數,則$D(\hat{\theta}_k)=\dfrac{1}{k}\sum D(X_i)=\dfrac{\sigma^2}{k}$,當k增長時,D降低,因此由有效性,當樣本越多時,參數估計越有效
再好比,由均方偏差準則可知,當n很小時,$S^2優於二階矩B^2$,當n上升時,兩者無差異
$$I(x)=-logP(x)$$
$$H(X)=E_{X\sim p}(I(X))=-E_{X\sim p}logP(x)$$
$$D_{KL}(P||Q)=E_{X\sim p}[log\dfrac{P(X)}{Q(X)}]=E_p(logP-logQ)$$
$$H(P,Q)=-E_{X\sim p}logQ(X)=-\sum\limits_{x\in X}P(x)logQ(x)$$
其中,P爲真實分佈,Q爲預測分佈
$softplus:log(1+e^x)$:激活函數的一種,在後面會看到它是Relu的平滑版本,但效果通常