摘要:隨機森林與決策樹的一個顯著的不一樣點就是它不會產生過分擬合。它的理論依據就是大數定律。html
很熟悉的一個名詞:大數定律,記得本科的機率論就有學,忘了差很少了,下面先複習下。函數
大量試驗說明,隨機事件A的頻率R(A),當重複試驗的次數n增大時,總呈現出穩定性,穩定在某一個常數的附件,意指數量越多,其平均值就越趨近與指望值。url
切比雪夫定理:3d
設 a1,a2,a3,…,an 爲相互獨立的隨機變量,其數學指望爲:E(ai)=, 及方差D(ai)= htm
則序列收斂於u,即在定理條件下,當n無限變大時,n個隨機變量的算術平均將趨於一個常數。blog
辛欽定理(切比雪夫的特殊狀況):事件
設a1,a2,…an,…爲服從同一分佈且相互獨立的隨機變量,其數學指望爲:,則對任意正數ε>0,下式成立:ip
代表,對於獨立同分布的隨機變量a1,a2,a3…an…,對於任意的ε>0,只要n充分大,事件實際上幾乎是必要發生的。get
伯努利大數定理(切比雪夫的特殊狀況):數學
設μ是n次獨立試驗中事件A發生的次數,p是事件A在每次試驗中發生的機率,則對於任意的正數ε,有
伯努力大數定理說明,當試驗次數n很大的時候,事件A發生的頻率與機率有較大判別的可能性比較小,即:
用數學式表現出了頻率的穩定性。
首先回顧下隨機森林的定義:
隨機森林是一個分類器,它由一些列的單株分類器組成的,其中的是獨立同分布的隨機變量。在輸入X後,每一棵決策樹只投一票給它認爲最合適的分類標籤,最後選擇投票最多的那個分類標籤做爲X的分類。
之因此引入隨機變量,是爲了控制每棵樹的生長,一般針對於第K棵決策樹引進隨機變量,它與前面的k-1個隨機變量是獨立同分布的,利用訓練集和來生成第k棵樹,也就等價於生成一個分類器,其中的X是一個輸入向量。
給定一系列的分類器,而後隨機的選擇一些訓練樣本,設其中X爲樣本向量,Y爲正確分類的分類標籤向量。
則定義邊際函數:
其中I(.)是示性函數,av(.)表示取平均值,邊際函數表示了在正確分類Y之下X的得票數目超過其它錯誤分類的最大得票數目的程度。
該值越大代表分類的置信度越高。
泛化偏差 公式爲:
其中X,Y表示機率的定義空間。
根據大數定律中的辛欽定理,當決策樹的數目增長時,對於全部的序列和PE都會收斂到:
對應於大數定律裏的頻率收斂於機率。
這一結果解釋了爲何隨機森林不會隨着決策樹的增長而產生過分擬合,而且有一個有限的泛化偏差值。