互聯網上的試驗田——A/B測試小論

A/B 測試一般用來測量兩個或多個方案在某一單一維度上的績效表現。通俗的說，就是用盡量科學嚴謹的方法，對比方案之間的優劣。這種方法雖然是穿白大褂的科學家發明並用於科學實驗，但如今它已經被善於借鑑的市場專家、用戶體驗專家們普遍地應用在市場研究、產品界面方案評估等更「感性」的領域。app

對於界面改進設計，A/B測試一般由控制版本和對照版本組成，即A爲當前線上方案，B爲改進方案。經過小流量線上平臺測試，考察對方案評估比較重要的績效數據，如點擊率、停留時間、出錯率等。ide

爲何要進行A/B測試？佈局

首先，在用戶體驗行業，哪一個方案好哪一個方案要被拍掉這樣的討論、辯論、爭論無時無刻不在世界各地重複上演。不知道聽誰的，主要是由於你們的理由都來自於「推理」。雖然UCD已經深刻人心，但仍然避免不了博弈各方自誇爲用戶代言人，推想用戶的行爲。而此時，A/B測試的威力就變得特別顯眼。它在用於界面方案評估時能夠提供客觀、準確的數據。哪一種方案點擊率高、哪一種方案更有利於將用戶的點擊轉化爲在線購買行爲等問題，能夠經過數據得到清晰、明確的結論。讓數聽說話，你們不知道要少費多少口舌，爲公司省下多少礦泉水呢。
post

第二，A/B測試不只能夠回答哪一種方案好的問題，更有可能回答好多少的問題。在平常設計中，常常出現這樣的困擾：在一番廝殺博弈後，已經沒有人懷疑新設計方案能比原方案有更好的效果。但至此，還不能天真地認爲萬事大吉了。方案仍然會被質疑：「爲了這一點效果的改善，是否值得動用寶貴的開發資源？」若是此時可使用A/B測試，定量的回答新方案比原方案在關鍵指標上的改善率，則能夠有效的評估成本和效益，幫助進行設計決策。值不值得給研發密密麻麻的排期表上再添一行，你們內心都更清楚了一些。
測試

測試哪些內容？spa

整體上說，任何可讓用戶的行爲形成變化的內容均可以進行A/B測試。但在界面設計中，常常進行如下內容的測試：設計

按鍵大小、顏色、位置
標題、文案風格
文字長度、大小、間隔
表單數量、字段類型
頁面佈局、結構
……

一次只改變一個變量3d

在設計A/B測試時，每次測試，不管對比方案有多少，都只能在一個地方進行改動。blog

若是你發現，按鈕大小和顏色均可能影響該按鈕的點擊率，那麼你須要分別進行三組測試。第一組，只變化按鈕的大小，其餘方面均保持不變；第二組實驗則只變化按鈕顏色。若是你對比的方案中，既有按鈕大小的變化又有按鈕顏色的變化，那麼在分析結果時則徹底沒法分清，某方案的績效改善究竟是由哪一個因素決定的。
事件

足夠的流量

在不少時候，A/B測試不是一種快速的研究方法，你須要耐心的積累數據流量。若是流量不夠，咱們則沒法區分考察點的績效差別是因爲方案不一樣形成的仍是因爲樣本量的偶然因素形成的。此外，還應該避免流量的巨大波動。每每訪問量的異動一般是受到某些突發偶然事件的影響，沒法真實反映出實驗的效果。

拉開方案之間的距離

測試方案之間應該保證必定程度的差別，這樣能夠最大程度地提升測試的效率。若是對比方案間差別太小，一方面測試結果有可能沒法發現統計學上有意義的明顯差別。另外一方面，即便方案差別明顯，也不易進行下一步測試。舉個例子，若是你發現12X12的圖標比11X11的圖標方案效果更好，那麼你是否是須要實驗一下13X13呢？若是13X13好，那麼14X14呢？這樣下去可能須要太多輪測試，你才能發現原來20X20的圖標效果最好。因此，步子邁得大一些，能夠更快的找到答案。

總之，AB測試是一種行之有效、豐儉由人、可龐大可迷你的不錯的研究方法。正確的使用會帶來事半功倍的效果。從今天開始，大膽的AB一下吧！AB測試是一種態度，AB測試是一種生活方式…