得物技術談如何測試機率性事件 - 二項分佈置信區間

【得物技術】如何測試機率性事件-二項分佈置信區間

前言

平常開發測試可能會遇到這樣一種狀況,有一個接口或方法機率觸發,那麼須要多少次抽樣落在一個什麼區間內,才能判定是否按照設定機率進行呢?算法

本文將以二項分佈做爲研究手段,分兩種狀況求解此類問題的置信區間範圍,並結合實際案例進行分析。函數

背景

某一天,測試同窗在驗證一個接口時遇到了一個問題。測試

該接口設定爲50%機率觸發,測試同窗寫了自動化腳本進行屢次調用。spa

可是問題來了,他並不知道應該調用多少次,而後落在一個什麼區間內纔算測試經過。excel

極大的擴大樣本容量,而後給一個模糊的範圍邊界確實能解決這個問題,可是測試同窗並不知足於此,他要一個精確的數字code

所以我只能知足他任性的要求,提筆拯救測試同窗。orm

解題思路

在這種狀況下,觸發 or 不觸發 此類機率問題能夠看做一個二項分佈,咱們的目的在於通過必定量的樣本測試以後判斷測試出來的機率是否落在置信區間內接口

那麼就須要考慮這幾種極端狀況:事件

1.機率過小開發

2.機率太大

3.樣本數很小

4.樣本數很大

在二項分佈中,能夠將樣本數與事件機率綜合起來考慮,合併爲如下兩種狀況

(a) 機率比較正常或樣本數較大 —— np > 5 and n(1-p) > 5

(b) 機率比較極端或樣本數較小  —— np <= 5 or n(1-p) <= 5

(n :樣本總數,p:機率)

二項分佈的置信區間估計方法經常使用的有兩種,一是正態分佈近似方法,即 Normal Approximation Method;二是精確置信區間法,即 Clopper-Pearson Method。

對於這兩種狀況可分別應用這兩種方法進行求解。

Normal Approximation Method

很容易能夠想象出當樣本數足夠大的狀況下,二項分佈的曲線分佈會愈發趨向於近似正態分佈。

所以在狀況a中適用於正態分佈近似。

置信區間計算公式:

所以使用了正態分佈近似,所以Z value用的也是正態分佈的Z value。

p: 樣本中所測得的事件發生機率

a: I類錯誤率

Z:  Z value常量,可查表得知

n: 樣本總數

該方法的優勢在於簡單易於理解,可是在極端狀況中精度會不好。

Clopper-Pearson Method

在狀況b中適用於精確置信區間法

置信區間計算公式(賊複雜,網上大多數貼的都是這個):

可是能夠發現上述公式是基於Binomial Cumulative Distribution Function,能夠經過Beta Distribution來計算,所以通過簡化可得以下置信區間計算公式。

置信區間計算公式(通過簡化):

n: 樣本總數

k: 成功數量

a: I類錯誤率

BetaInv: 一個算法函數,徹底不用理解具體細節,找個別人實現的直接調用便可(包括excel)

這樣一來就簡單的多了,我甚至能夠拿excel解出來。

該方法的優勢就在於能夠處理極端狀況,p是0或1的狀況也闊以。

實際案例

案例一(正態分佈近似法)

問題:一個50%機率的接口,測試50次,成功28次,判斷是否正常。

p = 28/50 = 0.56

np = 0.56* 50 = 28 > 5

n(1-p) = 0.45 * 50 = 22 > 5

所以使用正態分佈近似法。

置信度假設爲95%,所以查表得知Z值爲1.96

Z = 1.96

p = 28/50 = 0.56

n = 50

代入可得,置信區間爲[0.56 - 0.14, 0.56 + 0.14]這個範圍,所以0.5確實落入這個置信區間,因此能夠暫時認爲這個我這個接口沒問題!

案例二(精確置信區間法)

問題:一個17%機率的接口,測試50次,成功3次,判斷是否正常。

p = 3 / 50 = 0.06

np = 0.06* 50 = 3 < 5

適用於精確置信區間法。

假設置信度爲95%

a = 0.05

n = 50

k = 3

使用Excel或其餘方法

計算可得:

Pub = 0.1655

Plb = 0.0125

置信區間爲[0.0125, 0.1655],因此17%機率的接口沒有落在置信區間內,能夠認爲在95%置信度的狀況下,該接口出現了問題。

接着有請測試同窗發言=。=!

測試的實踐

實踐的功能與背景

基於鑑定460版ai鑑定師智能回覆這個功能。簡單來講這個功能就是,當你對鑑定貼進行回覆時,你的回覆內容徹底匹配到回覆詞庫時,就會觸發ai自動回覆。而觸發ai自動回覆是有一個機率控制的,在測試的時候想不僅僅校驗返回值,也想同時校驗這個機率功能的準確性。

測試執行

首先遇到這個功能,我想到的測試步驟就是:

目前就是這個測試步驟,而後經過接口的返回值來判斷作斷定:

1.檢查回覆中有沒有子評論

2.檢查子評論的回覆人是否是ai鑑定師

校驗的代碼以下

if (replyListResponse.getJSONObject("data").getJSONObject("simpleReply").

 getJSONArray("list").getJSONObject(j).getJSONObject("childReply").

 getJSONArray("list")!=null){

 DuAssert.getInstance().assertTrue(replyListResponse.

 getJSONObject("data").getJSONObject("simpleReply").

 getJSONArray("list").getJSONObject(j).getJSONObject("childReply").

 getJSONArray("list").getJSONObject(0).getString("userName").equals("ai鑑別"));

}

有人會問,爲何沒有檢查回覆的信息的正確性呢?首先,測試服的數據不可控因素比較多,好比今天校驗了他的回覆信息,可是過兩天回覆信息在驗收以後改了,那就還須要對用例進行改動。其次,在正常的測試流程中確定會覆蓋不一樣的入參信息與不一樣的返回信息對應狀況,只要驗證一次這個邏輯,剩下這個數據準確性的驗證反而以爲有一些冗餘,寫針對這麼長的測試用例更像是爲了保證整個流程:從發帖到審覈,從回覆到審覈這兩個老流程的準確性保證;非鑑定師觸發ai鑑別這個基礎流程的保證狀況。

機率驗證

進行到機率驗證,作法很簡單,好比咱們隨機50次,而後有子評論,且評論用戶爲ai鑑別,則n+1。可是這樣又會引入一個新問題,這個最後疊加出的n確定是在必定區間內波動的。好比服務端如今設置爲50%回覆,那n就是25左右,那這個具體要怎樣來設置這個區間,才能較爲準確的驗證這個機率的正確性,從而在數值沒有落在區間內的時候,能夠光明正大的給開發提bug,說你的機率算的不許確呢?

從上文中咱們得知,須要測試的事件機率爲50%,嘗試的次數爲50次,因此:

np=50X50%;

n(1-p)=50X50%,

均大於5,由此可知機率應符合正態分佈曲線,因此用來計算這個置信區間的公式爲:

代碼實現

public static double getProbability(int times,double targetP) {

 double z=1.96;

 return Math.sqrt(targetP*(1-targetP)/times)*z;

 }

很簡單,一行代碼就搞定了。有同窗可能會問這個1.96是哪來的,實際上這個是查表查的,暫定要求的準確度爲95%,因而根據下方的表格查得0.975對應的橫縱座標爲0.06和1.9,因而相加得1.96

最後用例代碼添加

double realP=n/50.00;

 double max =Math.ceil(50*realP+50* Probability.getProbability(50,realP));

 double min =Math.ceil(50*realP-50* Probability.getProbability(50,realP));

 if (25<=max &&25>min){

 DuAssert.getInstance().assertEquals("在區間內,機率可信","在區間內,機率可信");

 }

 else{

 DuAssert.getInstance().assertEquals("不在區間內,不可信,提bug!","在區間內,機率可信");

 }

綜上所述,咱們基於統計的原理校驗了這個功能的準確性。

總結

測試機率是測試過程當中一個比較模棱兩可的事情,如何進行機率事件的測試並有效的發現問題是很是必要的。

所以在上文中主要將此類問題模擬成二項分佈進行求解,求得置信區間從而進行較爲準確的判斷。

可是有一點要注意的是在上文兩個案例中都是以95%置信度做爲前提,其實是存在發生I類錯誤的可能性,因此測出了問題只能說大機率可能出現了問題,而不能立馬給一個絕對性的結論,這樣是不科學的。

建議是根據統計學經驗,先測30+次,能用正態分佈近似覆蓋就儘可能先使用正態分佈近似。

相關文章
相關標籤/搜索