AIC信息準則即Akaike information criterion,是衡量統計模型擬合優良性的一種標準,又由與它爲日本統計學家赤池弘次創立和發展的,所以又稱赤池信息量準則。它創建在熵的概念基礎上,能夠權衡所估計模型的複雜度和此模型擬合數據的優良性。
在通常的狀況下,AIC能夠表示爲: AIC=2k-2ln(L),其中:k是參數的數量,L是似然函數。 假設條件是模型的偏差服從獨立正態分佈。 讓n爲觀察數,RSS爲剩餘平方和,那麼AIC變爲: AIC=2k+nln(RSS/n)。
增長自由參數的數目提升了擬合的優良性,AIC鼓勵數據擬合的優良性可是儘可能避免出現過分擬合(Overfitting)的狀況。因此優先考慮的模型應是AIC值最小的那一個。赤池信息準則的方法是尋找能夠最好地解釋數據但包含最少自由參數的模型。
常常地,對一堆數據進行建模的時候,特別是分類和迴歸模型,咱們有不少的變量可供使用,選擇不一樣的變量組合能夠獲得不一樣的模型,例如咱們有5個變量,2的5次方,咱們將有32個變量組合,能夠訓練出32個模型。可是哪一個模型更加的好呢?目前經常使用有以下方法:
AIC=-2 ln(L) + 2 k 中文名字:赤池信息量 akaike information criterion
BIC=-2 ln(L) + ln(n)*k 中文名字:貝葉斯信息量 bayesian information criterion
HQ=-2 ln(L) + ln(ln(n))*k hannan-quinn criterion
構造這些統計量所遵循的統計思想是一致的,就是在考慮擬合殘差的同時,依自變量個數施加「懲罰」。但,假若所以就說它們是同一個指標,恐怕仍是有些不妥,畢竟「懲罰」的力度仍是不盡相同的。此外,這些信息量的用途不只限於選擇模型,還能用於選取合適的變換等等。而在那些時候,這些信息量又是另外一個模樣,也就是說它們有許多變體。所以,它們也被稱爲AIC準則、BIC準則等等。它們中的每個體現的都是一系列的標準,而非單獨的一個簡單式子。
注意這些規則只是刻畫了用某個模型以後相對「真實模型」的信息損失(由於不知道真正的模型是什麼樣子,因此訓練獲得的全部模型都只是真實模型的一個近似模型),因此用這些規則不能說明某個模型的精確度,即三個模型A, B, C,在經過這些規則計算後,咱們知道B模型是三個模型中最好的,可是不能保證B這個模型就可以很好地刻畫數據,由於頗有可能這三個模型都是很是糟糕的,B只是爛蘋果中的相對好的蘋果而已。
這些規則理論上是比較漂亮的,可是實際在模型選擇中應用起來仍是有些困難的,例如上面咱們說了5個變量就有32個變量組合,若是是10個變量呢?2的10次方,咱們不可能對全部這些模型進行一一驗證AIC, BIC,HQ規則來選擇模型,工做量太大。函數
由於AIC和BIC通常爲負值 也就是絕對值越大 負得越多越好 你能夠查一下AIC和BIC的計算公式 通常都是分爲兩個部分 一部分是度量擬合效果,另外一部分是對參數個數增長的懲罰ui