sufficient statistic 充分統計量

sufficient statistic 充分統計量html

對於一個未知分佈而言,充分統計量sufficient statistic,顧名思義,就是當知道這些量的時候,這個分佈就能夠肯定了,因此這些量纔有sufficient的意思,足夠的意思。有了這些量,即使丟失掉樣本的其餘信息也對於估計未知的分佈而言也是可有可無了,因此那些量才能成爲是sufficient的。維基上的解釋最經典,沒有任何其餘來自一樣樣本的統計量可以比充分統計量提供更多關於未知參數的信息(我是這麼理解的)。原句以下:In statistics, a sufficient statistic is a statistic which has the property of sufficiency with respect to a statistical model and its associated unknown parameter, meaning that "no other statistic which can be calculated from the same sample provides any additional information as to the value of the parameter".ide

 

好比,對於一些來自未知分佈的樣本,對於參數估計而言,就是能夠把這個未知的分佈表示成p(theta)的形式,樣本的分佈就能夠表示爲p(x|theta); 而充分統計量,假設爲q,它的存在乎義是當咱們比較難以推導出theta時,若是由這些樣本能比較容易的決定q,那此時p(x|theta)就等同於p(x|q),咱們就由比較容易得出的充分統計量來代替了原來難以直接推導出的參數qspa

 

對於你們熟知的正態分佈而言,若是有不少樣本抽樣自正態分佈,那咱們知道當肯定了分佈的均值和方差後,對於這些樣本的不少信息就均可以忽略了,好比他們出現的前後順序,好比有些樣本可能比其餘樣本的值大不少。這個時候能夠理解爲均值和方差就是正態分佈的充分統計量,就是sufficient 統計量。orm

(更多更詳細的介紹,能夠參考維基百科:http://en.wikipedia.org/wiki/Sufficient_statistic)xml

理解了上面的概念,就不難理解說dirichlet distribution有有限維的sufficient statistic有什麼好處了。htm


轉自:http://blog.sina.com.cn/s/blog_5033f3b40101g2ur.htmlblog