在這篇文章中,咱們看看什麼是渠道歸因,以及它如何與馬爾可夫鏈的概念聯繫起來。咱們還將經過一個電子商務公司的案例研究來理解這個概念在理論上和實踐上如何運做(使用R)。網絡
Google Analytics爲歸因建模提供了一套標準規則。根據Google的說法,「歸因模型是決定銷售和轉化功勞如何分配給轉化路徑中的接觸點的規則或一組規則。例如,Google Analytics中的最後一次互動模型會爲緊接銷售或轉化以前的最終接觸點(即,點擊次數)分配100%的功勞。相比之下,第一個互動模型爲啓動轉化路徑的接觸點分配100%的功勞。「網站
咱們將在本文後面看到最後一個交互模型和第一個交互模型。在此以前,讓咱們舉一個小例子,進一步瞭解渠道歸因。假設咱們有一個轉換圖,以下所示:spa
在上述狀況下,客戶能夠經過頻道'C1'或頻道'C2'開始他們的旅程。以C1或C2開始的機率爲50%(或0.5)。咱們首先計算轉換的整體機率,而後進一步查看每一個通道的影響。code
P(轉換)= P(C1→C2→C3→轉換)+ P(C2→C3→轉換)blog
= 0.5 * 0.5 * 1 * 0.6 + 0.5 * 1 * 0.6圖片
= 0.15 + 0.3rem
= 0.45get
馬爾可夫鏈是一個過程,它映射運動並給出機率分佈,從一個狀態轉移到另外一個狀態。馬爾可夫鏈由三個屬性定義:產品
狀態空間 - 處理可能存在的全部狀態的集合it
轉換操做符 - 從一個狀態轉移到另外一個狀態的機率
當前狀態機率分佈 - 在過程開始時處於任何一個狀態的機率分佈
咱們知道咱們能夠經過的階段,從每條路徑移動的機率以及咱們知道當前狀態的可能性。這看起來與馬爾可夫鏈類似,不是嗎?
事實上,這是一個馬爾可夫鏈的應用。咱們稍後會回來; 如今讓咱們堅持咱們的例子。若是咱們要弄清楚渠道1在咱們的客戶從始至終轉換的旅程中的貢獻,咱們將使用去除效果的原則。去除效果原則說,若是咱們想要在客戶旅程中找到每一個頻道的貢獻,咱們能夠經過刪除每一個頻道並查看在沒有該頻道的狀況下發生了多少次轉化。
例如,咱們假設咱們必須計算通道C1的貢獻。咱們將從模型中刪除通道C1,並查看圖片中沒有C1的狀況下發生了多少次轉換,即全部通道無缺無損時的總轉換次數。咱們計算通道C1:
P(去除C1後的轉換)= P(C2→C3→轉換)
= 0.5 * 1 * 0.6
= 0.3
30%的客戶互動能夠在沒有C1頻道的狀況下進行轉換; 而C1無缺無損,45%的互動能夠轉換。因此,C1的去除效果是
0.3 / 0.45 = 0.666。
C2和C3的去除效果爲1(您能夠嘗試計算,但直覺地認爲,若是咱們要刪除或者C2或C3,咱們將可以完成任何轉換?)。
這是馬爾可夫鏈的一個很是有用的應用。在上述狀況下,全部通道--C1,C2,C3(在不一樣階段)被稱爲轉換狀態 ; 而從一個信道移動到另外一個信道的機率稱爲轉移機率。
客戶旅程是一系列渠道,能夠看做是一個有向馬爾可夫圖中的一個鏈,其中每一個頂點都是一個狀態(渠道/接觸點),每條邊表示從一個狀態移動到另外一個狀態的轉移機率。因爲到達狀態的機率僅取決於之前的狀態,所以能夠將其視爲無記憶馬爾可夫鏈。
讓咱們進行真實案例研究,看看咱們如何實施渠道歸因建模。
一家電子商務公司進行了一項調查並收集了客戶的數據。這能夠被認爲是具備表明性的人羣。在調查中,公司收集了有關客戶訪問各類觸點的數據,最終在其網站上購買該產品。
總共有19個渠道,客戶能夠遇到產品或產品廣告。在19個頻道以後,還有三種狀況:
#20 - 客戶決定購買哪一種設備;
#21 - 客戶已經作出最終購買,而且;
#22 - 客戶還沒有決定。
渠道的整體分類以下:
類別渠道
網站(1,2,3)公司網站或競爭對手的網站
研究報告(4,5,6,7,8)行業諮詢研究報告
在線/評論(9,10)有機搜索,論壇
價格比較(11)聚合
朋友(12,13)社交網絡
專家(14)專家在線或離線
零售店(15,16,17)物理商店
雜項。(18,19)其餘如促銷活動在不一樣的地點
如今,咱們須要幫助電子商務公司肯定投資營銷渠道的正確策略。應該關注哪些渠道?公司應該投資哪些渠道?咱們將在下一節中使用R來解決這個問題。
讓咱們繼續前進,嘗試在R中的實現並檢查結果。
輸出:
R05A.01R05A.02R05A.03R05A.04... ..R05A.18R05A.19R05A.201643 NANANA21910NANANA9132016NANANA8152021NANANA1691320NANANA11184NANANA
咱們將進行一些數據處理,將其帶入一個階段,咱們能夠將其用做模型中的輸入。而後,咱們將肯定哪些客戶旅程已進行最終轉換(在咱們的狀況下,全部旅程都已達到最終轉換狀態)。
咱們將建立一個特定格式的變量'路徑',能夠做爲模型的輸入。另外,咱們將使用「dplyr」包找出每條路徑的總髮生次數。
路徑轉變
1> 1> 1> 2011> 1> 12> 1211> 1> 14> 13> 12> 2011> 1> 3> 13> 3> 2011> 1> 3> 17> 171> 1> 6> 1> 12> 20> 121
輸出:
路徑轉變
1> 1> 1> 2011> 1> 12> 1211> 1> 14> 13> 12> 2011> 1> 3> 13> 3> 2011> 1> 3> 17> 1711> 1> 6> 1> 12> 20> 121
如今,咱們將建立一個啓發式模型和一個馬爾科夫模型,將二者結合起來,而後檢查最終結果。
輸出:
CHANNEL_NAMEfirst_touch_conversions... ..linear_touch_conversionslinear_touch_value113073.77366173.773661200473.998171473.998171127576.12786376.127863143456.33574456.33574413320204.039552204.0395523168117.609677117.609677173176.58384776.58384765054.70712454.70712485653.67786253.67786210547211.822393211.8223931166107.109048107.10904816111156.049086156.049086219994.11166894.1116684231250.784033250.78403372633.43599133.435991
輸出:
CHANNEL_NAMEtotal_conversiontotal_conversion_value182.48296182.48296120432.40615432.406151283.94258783.9425871463.0867663.0867613195.751556195.7515563122.973752122.9737521783.86672483.866724663.28082863.280828861.01611561.01611510209.035208209.03520811118.563707118.56370716158.692238158.692238298.06719998.0671994223.709091223.709091741.91924841.919248
在進一步討論以前,咱們先來了解一下咱們上面看到的一些術語的含義。
第一次觸摸轉換:當該頻道是客戶的第一個觸摸點時,經過頻道進行的轉換。第一個觸點得到100%的功勞。
上次觸摸轉換:當該頻道是客戶的最後一個接觸點時,經過頻道發生的轉化。100%信用給予最後的接觸點。
回到R代碼,讓咱們合併這兩個模型,並以更容易理解的視覺吸引人的方式表示輸出。
從上圖中能夠清楚地看到情景。從第一次觸摸轉換角度來看,頻道10,頻道13,頻道2,頻道4和頻道9很是重要; 而從最後接觸的角度來看,第20頻道是最重要的(在咱們的例子中,應該是由於客戶決定購買哪一種產品)。就線性觸摸轉換而言,通道20,通道4和通道9是重要的。從總轉換角度來看,頻道10,13,20,4和9很是重要。
在上面的圖表中,咱們已經可以找出哪些是咱們關注的重要渠道,哪些能夠被忽略或忽視。這種狀況使咱們對客戶分析領域馬爾可夫鏈模型的應用有了很好的瞭解。電子商務公司如今能夠自信地建立他們的營銷策略,並使用數據驅動的看法分配他們的營銷預算。