由於最近在找實習,因此打算把本身以前學過的關數據分析的知識總結(複習)一下。在總結A/B test時,我發現中文互聯網中關於A/B test的總結已經不少了,可是對於均值型指標和比值(率)型指標在設計實驗、計算統計量時的區別卻沒有一個很明確的總結。甚至有的文章給出的計算公式語焉不詳、先後矛盾,計算樣本數量給的是均值型指標的計算公式,計算Z值時又給出了比值(率)型指標的計算公式。html
在互聯網數據分析中,有許多指標是數據分析師所關心的,對於不一樣的數據分析任務須要選取合適的指標。對A/B test而言,這些指標能夠分爲兩類網絡
須要注意的是,在統計學中,這兩類指標的假設檢驗是不一樣的。這種不一樣主要體如今三個方面:效應量(Effect size)的計算、所需樣本量的計算以及Z檢驗統計量的計算。工具
在給出計算樣本量以前,首先介紹一下樣本量的四個影響因素,分別是:測試
一個A/B test須要的樣本量就由四個指標進行計算:ui
比值(率)型指標spa
其中\(p_1,p_2\)分別表示兩組樣本的比值型指標。上述方法爲R和G*power中使用公式,其餘工具略有不一樣,更多比值類樣本量計算方法,參考[2]。設計
均值型指標htm
其中\(N_1,N_2\) 分別表示兩組樣本數量;\(z_{1-\alpha/2},z_{1-\beta}\) 經過\(z\)分佈計算;\(\mu_1,\mu_2\) 分別爲當前均值指標和預估改進後均值指標(或者指望檢測到的指標變化)。重點是標準差\(\sigma\) ,實驗前很難知道其大小,通常能夠根據經驗值預估。get
效應量又稱效應值,提供了對效應大小的具體測量,也就是說反映了具體效果的大小。數據分析
比值(率)型指標
商務與經濟統計[1]中給出的方法
網絡中給出的方法:
找了很久沒有找到推導,我的見解是把比值型指標看作伯努利分佈,則根據中心極限定理,\(B(1,p)\sim N(p,p(1-p))\),而後從均值型指標公式推導過來。
均值型指標
以上就是我總結的關於均值型指標和比值(率)型指標在A/B test中的區別,若有遺漏和錯誤,望你們多多指正。
[1]. 商務與經濟統計