前面一章,介紹了大數據hadoop生態圈中組件Flume、azkaban、sqoop的相關知識,截止目前,大數據離線分析的技術知識基本已經介紹完(固然,各組件還有一些其它的替代方案,須要小夥伴們下來本身去了解,推薦書籍《網站分析實戰——如何以數據驅動決策,提高網站價值》)。本章開始,博主將介紹離線技術分析的實際項目例子,以幫助更深的理解前面的相關知識。
1、 網站點擊流數據分析項目業務背景
(1.1)、什麼是點擊流數據
(1.1.1)、WEB訪問日誌web
即指用戶訪問網站時的全部訪問、瀏覽、點擊行爲數據。好比點擊了哪個連接,在哪一個網頁停留時間最多,採用了哪一個搜索項、整體瀏覽時間等。而全部這些信息均可被保存在網站日誌中。經過分析這些數據,能夠獲知許多對網站運營相當重要的信息。採集的數據越全面,分析就能越精準。ajax
日誌的生成渠道:
1)是網站的web服務器所記錄的web訪問日誌;
2)是經過在頁面嵌入自定義的js代碼來獲取用戶的全部訪問行爲(好比鼠標懸停的位置,點擊的頁面組件等),而後經過ajax請求到後臺記錄日誌;這種方式所能採集的信息最全面;
3)經過在頁面上埋點1像素的圖片,將相關頁面訪問信息請求到後臺記錄日誌;chrome
日誌數據內容詳述:
在實際操做中,有如下幾個方面的數據能夠被採集:
1)訪客的系統屬性特徵。好比所採用的操做系統、瀏覽器、域名和訪問速度等。
2)訪問特徵。包括停留時間、點擊的URL等。
3)來源特徵。包括網絡內容信息類型、內容分類和來訪URL等。
4)產品特徵。包括所訪問的產品編號、產品類別、產品顏色、產品價格、產品利潤、產品數量和特價等級等。瀏覽器
以電商某東爲例,其點擊日誌格式以下:服務器
GET /log.gif?t=item.010001&m=UA-J2011-1&pin=-&uid=1679790178&sid=1679790178|12&v=je=1$sc=24-bit$sr=1600x900$ul=zh-cn$cs=GBK$dt=【雲南白藥套裝】雲南白藥 牙膏 180g×3 (留蘭香型)【行情 報價 價格 評測】-京東$hn=item.jd.com$fl=16.0 r0$os=win$br=chrome$bv=39.0.2171.95$wb=1437269412$xb=1449548587$yb=1456186252$zb=12$cb=4$usc=direct$ucp=-$umd=none$uct=-$ct=1456186505411$lt=0$tad=-$sku=1326523$cid1=1316$cid2=1384$cid3=1405$brand=20583$pinid=-&ref=&rm=1456186505411 HTTP/1.1
(1.1.2)、點擊流數據模型cookie
點擊流這個概念更注重用戶瀏覽網站的整個流程,網站日誌中記錄的用戶點擊就像是圖上的「點」,而點擊流更像是將這些「點」串起來造成的「線」。也能夠把「點」認爲是網站的Page,而「線」則是訪問網站的Session。因此點擊流數據是由網站日誌中整理獲得的,它能夠比網站日誌包含更多的信息,從而使基於點擊流數據統計獲得的結果更加豐富和高效。網絡
點擊流模型生成:點擊流數據在具體操做上是由散點狀的點擊日誌數據梳理所得,從而,點擊數據在數據建模時應該存在兩張模型表(Pageviews和visits):session
一、用於生成點擊流的訪問日誌表oop
時間戳佈局 |
IP地址 |
Cookie |
Session |
請求URL |
Referal |
2012-01-01 12:31:12 |
101.0.0.1 |
User01 |
S001 |
/a/... |
somesite.com |
2012-01-01 12:31:16 |
201.0.0.2 |
User02 |
S002 |
/a/... |
- |
2012-01-01 12:33:06 |
101.0.0.2 |
User03 |
S002 |
/b/... |
baidu.com |
2012-01-01 15:16:39 |
234.0.0.3 |
User01 |
S003 |
/c/... |
google.com |
2012-01-01 15:17:11 |
101.0.0.1 |
User01 |
S004 |
/d/... |
/c/... |
2012-01-01 15:19:23 |
101.0.0.1 |
User01 |
S004 |
/e/... |
/d/.... |
二、頁面點擊流模型Pageviews表(按session彙集的訪問頁面信息)
Session |
userid |
時間 |
訪問頁面URL |
停留時長 |
第幾步 |
S001 |
User01 |
2012-01-01 12:31:12 |
/a/.... |
30 |
1 |
S002 |
User02 |
2012-01-01 12:31:16 |
/a/.... |
10 |
1 |
S002 |
User02 |
2012-01-01 12:33:06 |
/b/.... |
110 |
2 |
S002 |
User02 |
2012-01-01 12:35:06 |
/e/.... |
30 |
3 |
三、點擊流模型Visits表
Session |
起始時間 |
結束時間 |
進入頁面 |
離開頁面 |
訪問頁面數 |
IP |
cookie |
referal |
S001 |
2012-01-01 12:31:12 |
2012-01-01 12:31:12 |
/a/... |
/a/... |
1 |
101.0.0.1 |
User01 |
somesite.com |
S002 |
2012-01-01 12:31:16 |
2012-01-01 12:35:06 |
/a/... |
/e/... |
3 |
201.0.0.2 |
User02 |
- |
S003 |
2012-01-01 12:35:42 |
2012-01-01 12:35:42 |
/c/... |
/c/... |
1 |
234.0.0.3 |
User03 |
baidu.com |
S003 |
2012-01-01 15:16:39 |
2012-01-01 15:19:23 |
/c/... |
/e/... |
3 |
101.0.0.1 |
User01 |
google.com |
這就是點擊流模型。當WEB日誌轉化成點擊流數據的時候,不少網站分析度量的計算變得簡單了,這就是點擊流的「魔力」所在。基於點擊流數據咱們能夠統計出許多常見的網站分析度量
(1.2)、網站流量數據分析的意義
網站流量統計分析,能夠幫助網站管理員、運營人員、推廣人員等實時獲取網站流量信息,並從流量來源、網站內容、網站訪客特性等多方面提供網站分析的數據依據。從而幫助提升網站流量,提高網站用戶體驗,讓訪客更多的沉澱下來變成會員或客戶,經過更少的投入獲取最大化的收入。
以下表:
網站的眼睛 |
網站的神經 |
網站的大腦 |
訪問者來自哪裏? 訪問者在尋找什麼? 哪些頁面最受歡迎? 訪問者從哪裏進入?
|
網頁佈局合理嗎? 網站導航清晰嗎? 哪些功能存在問題 網站內容有效嗎 轉化路徑靠譜嗎? |
如何分解目標? 如何分配廣告預算? 如何衡量產品表現? 哪些產品須要優化? 哪些指標須要關注? |
點擊流分析的意義可分爲兩大方面
一、技術上
能夠合理修改網站結構及適度分配資源,構建後臺服務器羣組,好比
1) 輔助改進網絡的拓撲設計,提升性能
2) 在有高度相關性的節點之間安排快速有效的訪問路徑
3) 幫助企業更好地設計網站主頁和安排網頁內容
二、業務上
1) 幫助企業改善市場營銷決策,如把廣告放在適當的Web頁面上。
2) 優化頁面及業務流程設計,提升流量轉化率。
3) 幫助企業更好地根據客戶的興趣來安排內容。
4) 幫助企業對客戶羣進行細分,針對不一樣客戶制定個性化的促銷策略等。
終極目標是:改善網站(電商、社交、電影、小說)的運營,獲取更高投資回報率(ROI)
(1.3)、如何進行網站流量分析
流量分析總體來講是一個內涵很是豐富的體系,其總體過程是一個金字塔結構:
(1.3.1)、流量分析模型舉例
一般有如下幾大類的分析需求:
1)、網站流量質量分析
流量對於每一個網站來講都是很重要,但流量並非越多越好,應該更加看重流量的質量,換句話來講就是流量能夠爲咱們帶來多少收入。
2)、網站流量多維度細分
細分是指經過不一樣維度對指標進行分割,查看同一個指標在不一樣維度下的表現,進而找出有問題的那部分指標,對這部分指標進行優化。
3)、網站內容及導航分析
對於全部網站來講,頁面均可以被劃分爲三個類別:導航頁、功能頁、內容頁
首頁和列表頁都是典型的導航頁;
站內搜索頁面、註冊表單頁面和購物車頁面都是典型的功能頁;
而產品詳情頁、新聞和文章頁都是典型的內容頁。
好比從內容導航分析中,如下兩類行爲就是網站運營者不但願看到的行爲:
第一個問題:訪問者從導航頁進入,在尚未看到內容頁面以前就從導航頁離開網站,須要分析導航頁形成訪問者中途離開的緣由。
第二個問題:訪問者從導航頁進入內容頁後,又返回到導航頁,說明須要分析內容頁的最初設計,並考慮中內容頁提供交叉的信息推薦
4)、網站轉化及漏斗分析
所謂轉化,即網站業務流程中的一個封閉渠道,引導用戶按照流程最終實現業務目標(好比商品成交);而漏斗模型則是指進入渠道的用戶在各環節遞進過程當中逐漸流失的形象描述;
對於轉化渠道,主要進行兩部分的分析:
訪問者的流失和迷失
一、阻力和流失
形成流失的緣由不少,如:
不恰當的商品或活動推薦
對支付環節中專業名詞的解釋、幫助信息等內容不當
二、迷失
形成迷失的主要緣由是轉化流量設計不合理,訪問者在特定階段得不到須要的信息,而且不能根據現有的信息做出決策
總之,網站流量分析是一門內容很是豐富的學科,本課程中主要關注網站分析過程當中的技術運用,更多關於網站流量分析的業務知識可學習推薦資料。
(1.3.2)、流量分析常見指標
課程中涉及的分析指標主要位於如下幾大方面
1)、基礎分析(PV,IP,UV)
趨勢分析:根據選定的時段,提供網站流量數據,經過流量趨勢變化形態,爲您分析網站訪客的訪問規律、網站發展情況提供參考。
對比分析:根據選定的兩個對比時段,提供網站流量在時間上的縱向對比報表,幫您發現網站發展情況、發展規律、流量變化率等。
當前在線:提供當前時刻站點上的訪客量,以及最近15分鐘流量、來源、受訪、訪客變化狀況等,方便用戶及時瞭解當前網站流量情況。
訪問明細:提供最近7日的訪客訪問記錄,可按每一個PV或每次訪問行爲(訪客的每次會話)顯示,並可按照來源、搜索詞等條件進行篩選。 經過訪問明細,用戶能夠詳細瞭解網站流量的累計過程,從而爲用戶快速找出流量變更緣由提供最原始、最準確的依據。
2)、來源分析
來源分類:提供不一樣來源形式(直接輸入、搜索引擎、其餘外部連接、站內來源)、不一樣來源項引入流量的比例狀況。經過精確的量化數據,幫助用戶分析什麼類型的來路產生的流量多、效果好,進而合理優化推廣方案。
搜索引擎:提供各搜索引擎以及搜索引擎子產品引入流量的比例狀況。從搜索引擎引入流量的的角度,幫助用戶瞭解網站的SEO、SEM效果,從而爲制定下一步SEO、SEM計劃提供依據。
搜索詞:提供訪客經過搜索引擎進入網站所使用的搜索詞,以及各搜索詞引入流量的特徵和分佈。幫助用戶瞭解各搜索詞引入流量的質量,進而瞭解訪客的興趣關注點、網站與訪客興趣點的匹配度,爲優化SEO方案及SEM提詞方案提供詳細依據。
最近7日的訪客搜索記錄,可按每一個PV或每次訪問行爲(訪客的每次會話)顯示,並可按照訪客類型、地區等條件進行篩選。爲您搜索引擎優化提供最詳細的原始數據。
來路域名:提供具體來路域名引入流量的分佈狀況,並可按「社會化媒體」、「搜索引擎」、「郵箱」等網站類型對來源域名進行分類。 幫助用戶瞭解哪類推廣渠道產生的流量多、效果好,進而合理優化網站推廣方案。
來路頁面:提供具體來路頁面引入流量的分佈狀況。 尤爲對於經過流量置換、包廣告位等方式從其餘網站引入流量的用戶,該功能能夠方便、清晰地展示廣告引入的流量及效果,爲優化推廣方案提供依據。
來源升降榜:提供開通統計後任意兩日的TOP10000搜索詞、來路域名引入流量的對比狀況,並按照變化的劇烈程度提供排行榜。 用戶可經過此功能快速找到哪些來路對網站流量的影響比較大,從而及時排查相應來路問題。
3)、受訪分析
受訪域名:提供訪客對網站中各個域名的訪問狀況。 通常狀況下,網站不一樣域名提供的產品、內容各有差別,經過此功能用戶能夠了解不一樣內容的受歡迎程度以及網站運營成效。
受訪頁面:提供訪客對網站中各個頁面的訪問狀況。 站內入口頁面爲訪客進入網站時瀏覽的第一個頁面,若是入口頁面的跳出率較高則須要關注並優化;站內出口頁面爲訪客訪問網站的最後一個頁面,對於離開率較高的頁面須要關注並優化。
受訪升降榜:提供開通統計後任意兩日的TOP10000受訪頁面的瀏覽狀況對比,並按照變化的劇烈程度提供排行榜。 可經過此功能驗證通過改版的頁面是否有流量提高或哪些頁面有巨大流量波動,從而及時排查相應問題。
熱點圖:記錄訪客在頁面上的鼠標點擊行爲,經過顏色區分不一樣區域的點擊熱度;支持將一組頁面設置爲"關注範圍",並可按來路細分點擊熱度。 經過訪客在頁面上的點擊量統計,能夠了解頁面設計是否合理、廣告位的安排可否獲取更多佣金等。
用戶視點:提供受訪頁面對頁面上連接的其餘站內頁面的輸出流量,並經過輸出流量的高低繪製熱度圖,與熱點圖不一樣的是,全部記錄都是實際打開了下一頁面產生了瀏覽次數(PV)的數據,而不只僅是擁有鼠標點擊行爲。
訪問軌跡:提供觀察焦點頁面的上下游頁面,瞭解訪客從哪些途徑進入頁面,又流向了哪裏。 經過上游頁面列表比較出不一樣流量引入渠道的效果;經過下游頁面列表瞭解用戶的瀏覽習慣,哪些頁面元素、內容更吸引訪客點擊。
4)、訪客分析
地區運營商:提供各地區訪客、各網絡運營商訪客的訪問狀況分佈。 地方網站、下載站等與地域性、網絡鏈路等結合較爲緊密的網站,能夠參考此功能數據,合理優化推廣運營方案。
終端詳情:提供網站訪客所使用的瀏覽終端的配置狀況。 參考此數據進行網頁設計、開發,可更好地提升網站兼容性,以達到良好的用戶交互體驗。
新老訪客:當日訪客中,歷史上第一次訪問該網站的訪客記爲當日新訪客;歷史上已經訪問過該網站的訪客記爲老訪客。 新訪客與老訪客進入網站的途徑和瀏覽行爲每每存在差別。該功能能夠輔助分析不一樣訪客的行爲習慣,針對不一樣訪客優化網站,例如爲製做新手導航提供數據支持等。
忠誠度:從訪客一天內回訪網站的次數(日訪問頻度)與訪客上次訪問網站的時間兩個角度,分析訪客對網站的訪問粘性、忠誠度、吸引程度。 因爲提高網站內容的更新頻率、加強用戶體驗與用戶價值能夠有更高的忠誠度,所以該功能在網站內容更新及用戶體驗方面提供了重要參考。
活躍度:從訪客單次訪問瀏覽網站的時間與網頁數兩個角度,分析訪客在網站上的活躍程度。 因爲提高網站內容的質量與數量能夠得到更高的活躍度,所以該功能是網站內容分析的關鍵指標之一。
5)、轉化路徑分析
轉化定義:
訪客在您的網站完成了某項您指望的活動,記爲一次轉化,如註冊或下載。
目標示例:得到用戶目標:在線註冊、建立帳號等。
諮詢目標:諮詢、留言、電話等。
互動目標:視頻播放、加入購物車、分享等。
收入目標:在線訂單、付款等。
轉化數據的應用:
在報告的自定義指標中勾選轉化指標,實時掌握網站的推廣及運營狀況。
結合「所有來源」、「轉化路徑」、「頁面上下游」等報告分析訪問漏斗,提升轉化率。
對「轉化目標」設置價值,預估轉化收益,衡量ROI。
路徑分析:根據設置的特定路線,監測某一流程的完成轉化狀況,算出每步的轉換率和流失率數據,如註冊流程,購買流程等。
轉化類型:
一、頁面
二、事件
最後寄語,以上是博主本次文章的所有內容,若是你們以爲博主的文章還不錯,請點贊;若是您對博主其它服務器大數據技術或者博主本人感興趣,請關注博主博客,而且歡迎隨時跟博主溝通交流。