AB測試不足

時間 2019-12-10

標籤測試不足简体版

原文原文鏈接

背景

AB Test時，除了保證算法不同外，其餘條件都須要保證不變。可是每每你們可能忽視了保證用戶分佈的不變。好比一個算法A除了能夠召回付費用戶外，還能夠召回不少潛在付費用戶，而算法B只能召回常常付費的用戶，若是直接拿兩個算法做用全部用戶比較，此時顯然用戶的分佈不一致，比較最終的統計指標意義不大。算法

兩種算法比較

假設有兩個算法A，B。因爲算法對數據的要求不一樣，致使分別召回了UAUA和UBUB兩批用戶，因此總體用戶爲U=UA∪UBU=UA∪UB。兩個算法的交集爲I=UA∩UB≠∅I=UA∩UB≠∅。算法上線時，I中的用戶不能同時被兩個算法影響，因此必須在算法A和B中選擇一個算法上線。此時能夠等權重隨機在A和B中選擇一個算法，隨機選取能夠確保算法A和B影響的用戶分佈相同，而且能夠保證A,B算法影響I中的用戶量級相同。若是根據經驗知道A的算法比B的好，能夠將A的隨機選取權重適調高，這樣能夠在確保總體線上效果的同時，仍然能夠保證A，B算影響的用戶分佈相同，可是量級會有所不一樣。可是，只要I中的用戶足夠多，量級對最終的評估影響不會太大。測試