從伯努利分佈到交叉熵(一)

 

前言

  通訊轉數據挖掘不久,發現本身在一些機器學習概念問題有些模糊,不一樣的教科書的公式形式有些出入,稍有混亂。本文總結了本身對交叉熵這個概念的一些物理意義方面的理解,嘗試將這些概念融會貫通。因爲水平實在不高,只是把想到的東西簡單堆砌,簡單梳理了一下邏輯,看起來比較囉嗦.同時有不對之處(有些數學定義都是我本身的理解),但願不吝賜教。dom

伯努利分佈

  伯努利分佈,又稱0-1分佈。這個離散分佈很是直觀,在中學咱們就學過。可是,把這個分佈複習一下,對後面一些理解大有裨益。對於一個伯努利試驗,它只有兩個結果1或0。一般,取1的機率爲 $p$,取0的機率爲$1-p$。$p$就是該伯努利分佈的參數。機器學習

  對於隨機變量$X$服從伯努利分佈,$\Pr(X=1)=p,\Pr(X=0)=q=1-p,0<p<1$.能夠發現,對於伯努利分佈,原本是須要兩個參數的$p$和$q$的,可是因爲$p$ 和 $q$相關,只有一個自由度.因此通常用 $p$ 來表示就足夠了.相應的機率質量函數(pmf)爲:函數

$$ f(x;p)=\left\{
\begin{aligned}
&p ,&x=1,  \\
&1-p, &x=0.
\end{aligned}
\right.
$$學習

這種pmf用分段函數的形式簡單易懂,可是分段函數對於後續推導來講比較麻煩.因此伯努利分佈的另一種pmf的形式出現了:spa

$$f(x;p)=p^{x}(1-p)^{1-x},x={0,1}.$$ip

這種形式至關漂亮,一個表達式中包含了兩種狀況. 因爲 $x$ 取值非1即0,對於特定的x取值,這個表達式中每次僅有部分起做用.(當 $x=1$, $(1-p)$ 的部分的指數項爲0, 因此表達式的值爲 $p$,和上面的分段函數等價).這裏惟一須要注意的是定義域的取值,只能是0或1.(對於二分類的問題,標籤有時會取值 $\pm1$. 題外話,通訊原理裏處理數字信號調製,正交碼時候也常常遇到這種問題,有時是0,1,有時是 $\pm1$.)ci

廣義伯努利分佈

  事實上,伯努利分佈的只能取布爾值,能夠對應於二分類問題.對於多分類問題,對應的是廣義伯努利分佈,也就是隨機變量的取值個數不侷限於2個.關於廣義伯努利分佈見wiki:element

In probability theory and statistics, a categorical distribution (also called a generalized Bernoulli distributionmultinoulli distribution[1]) is a discrete probability distribution that describes the possible results of a random variable that can take on one of Kpossible elementary events (single outcomes of the discrete sample space, often referred to as categories), with the probability of each elementary event separately specified.get

BTW,獨立重複試驗的話,伯努利分佈進化爲二項分佈;廣義伯努利分佈進化爲多項分佈.數學

  因爲廣義伯努利分佈和多分類有着密切關係,咱們簡單看看它.首先確認的是它有幾個參數?回想伯努利分佈,有兩個參數 $p$ 和 $q$, 因爲相關, 只要一個 $p$就夠了.相似,廣義伯努利分佈有 $k$ 個參數$p_1,p_2,\dots,p_k$,分別表明取值爲 $i,i\in\{1,2,\dots,k\}$的機率. 因爲機率和爲1的致使相關,只有 $k-1$ 個自由度,只要 $k-1$ 個參數就夠了.可是,最後一個參數是這麼表示的 $p_k=1-p_1-\dots-p_{k-1}$,寫起來太麻煩,還不如直接用 $k$ 個參數來表示.好了,廣義伯努利分佈的pmf是什麼呢?相似的能夠這麼寫

$$f(x;p_1,\dots,p_k)=p_i,\hspace{10pt}x=i,\hspace{10pt}i\in\{1,2,\dots,k\}.$$

這裏雖然表達式只有一行,但倒是一個徹徹底底的分段函數,由於函數的值 $p_i$隨着 $x$的定義域的每一個值上都不一樣.那麼咱們想使用上面那個漂亮的非分段函數,使得函數的值在 $x$的定義域能夠用個同一的表達式表示.可是,這裏遇到了一個困難.由於對於伯努利分佈, $x\in\{0,1\}$時, $x$ 和 $1-x$互斥且完備(我等於1,你就不等於1;還要知足一個,我和你必有一個發生,即和爲1)(這也是爲啥 $x$取0,1的好處).

  而對於廣義伯努利分佈, $x$的取值比較隨意,通常是$\{1,2,\dots,k\}$,咱們也但願找到一組互斥且完備的量來寫出那個漂亮的非分段函數的pmf.如何作到呢?咱們先引入一個示性函數.

示性函數

  示性函數(指示函數)就是這麼一個函數能知足咱們的全部訴求.看看wiki:

In mathematics, an indicator function or a characteristic function is a function defined on a set X that indicates membership of an element in a subset A of X, having the value 1 for all elements of A and the value 0 for all elements of X not in A

我在測度論和機率論的課程裏面第一次接觸到這個簡單函數(原諒我測度論學的一塌糊塗).它和伯努利分佈有着自然的契合性.這是一個定義在集合 $X$ 上的函數,映射到 $\{0,1\}$. 它表示集合$X$中有哪些元素屬於某個子集 $A$,定義爲

$$ {I}_{A}(x)=\left\{
\begin{aligned}
&1 ,&x\in A, \\
&0, &x\notin A.
\end{aligned}
\right.
$$

它有個性質,就是它的指望等於$A$的機率:$$E(I_A) =\int _X I_A(x) \mathrm{d}\mathbb{P}=\int _A \mathrm{d}\mathbb{P}=P(A).$$

這個性質涉及到測度和測度積分,也不是我短期說清楚的,有疑問的翻書吧.那麼有了這個函數, 定義集合$X=\{0,1\}$,定義子集 $A=\{1\}$,則$\bar{A}=\{0\}$,咱們可以將伯努利分佈的非分段函數的pmf改寫爲

$$f(x;p)=p^{I_A(x)}  (1-p)^{I_{\bar{A}}(x)},x={0,1}.$$

  相似的,咱們能夠對廣義伯努利函數這麼定義.定義集合$X=\{0,1,\dots,k\}$,將全集 $X$劃分爲 $k$ 個互斥的子集 $A_1=\{1\}$,$A_2=\{2\}$,...,$A_k=\{k\}$.能夠獲得 $k$個互斥且完備的示性函數,以第一個爲例:

$$ {I}_{A_1}(x)=\left\{
\begin{aligned}
&1 ,&x\in A_1, \\
&0, &x\in A_2,or, A_3,..,or,A_k.
\end{aligned}
\right.
$$

能夠發現,當 $x\in A_1$時,僅有$I_{A_1}(x)=1$,其餘的$I_{A_i}(x)=0,i\neq1.$那麼廣義伯努利函數的非分段函數的pmf能夠表示爲

$$\begin{aligned}f(x;p_1,\dots,p_k)=
&p_1^{I_{A_{1}} (x)} \dots p_k^{I_{A_{k}} (x)},x=\{0,1,\dots,k\}\\
=&\prod_{i=1}^k p_i^{I_{A_i}(x)},x=\{0,1,\dots,k\}.
\end{aligned}
$$

這個連積的形式很簡潔.特別強調的是Notation的問題,這裏的全部下標和機器學習的下標不要緊,純粹就是伯努利分佈本身參數的下標.後面的推導的時候,我還會特別強調各個上下標是什麼意思.

  至此,伯努利分佈和廣義伯努利分佈的pmf均可以用一個統一的表達形式.值得注意的是,示性函數的引入,使咱們沒必要固定隨機變量的取值.想一想也是,伯努利分佈中,只有惟一的參數 $p$,和$x$的定義域的取值無關.

相關文章
相關標籤/搜索