網站用戶身份標識的識別

用戶分析是網站分析中一個重要的組成部分,在分析用戶以前咱們必須首先可以識別每一個用戶,分辨哪些是」New Customer」,哪些是」Repeat Customer」。這樣不但可以更加清晰地瞭解到底有多少用戶訪問了你的網站,分辨他們是誰(用戶ID、郵箱、性別年齡等);同時也可以幫助你更好地跟 蹤你的用戶,發現它們的行爲特徵、興趣愛好及個性化的設置等,以便於更好地把握用戶需求,提高用戶體驗。html

一般當你的網站提供了註冊服務,而用戶註冊並登錄過你的網站,那麼用戶能夠更容易地被識別,由於網站通常都會保存註冊用戶的詳細信息;可是你的網站並不須要註冊,而用戶的行爲以瀏覽爲主,這是用戶識別就會顯得較爲困難,下面提供了幾種經常使用的用戶識別的方法:web

識別用戶的幾種方法數據庫

當用戶並未註冊登陸的狀況下,識別用戶的惟一途徑就只剩下用戶瀏覽行爲的點擊流數據,一般狀況下它們會保存在WEB日誌裏面,關於WEB日誌的詳細說明能夠參考我以前的文章——WEB日誌格式。而WEB日誌自己存在的缺陷可能致使用戶識別的不許確性,關於WEB日誌的缺陷能夠參考以前的文章——WEB日誌的做用和缺陷,因此咱們在選擇用戶識別方法的過程當中,在條件容許的狀況下儘可能選擇更爲準確的方法:cookie

一、基於IP的用戶識別網絡

IP地址是最容易獲取的信息,任何的WEB日誌中均會包含,但其侷限性也較爲明顯:僞IP、代理、動態IP、局域網共享同一公網IP出口……這些狀況都會影響基於IP來識別用戶的準確性,因此IP識別用戶的準確性比較低,目前通常不會直接採用IP來識別用戶。工具

獲取難度:★網站

準確度:★代理

二、基於IP+Agent的用戶識別日誌

一樣基於最簡單形式的WEB日誌,咱們能夠增長一項——Agent,來提升單一IP方式識別用戶的準確性。Agent也是WEB日誌中通常都會 包含的信息,經過IP+Agent的方式能夠適當提升IP代理、公用IP這類狀況下用戶的分辨度,同時經過Agent還能夠識別網絡爬蟲等特殊「用戶」, 但一樣準確度也欠高。orm

獲取難度:★

準確度:★★

三、基於cookie的用戶識別

當你經過自定義Apache日誌格式或者JavaScript的方法得到用戶cookie的時候,其實你已經找到了一個更有效的用戶識別的手 段。cookie在未被清除的其前提下能夠認爲是跟某個訪問客戶端電腦綁定的(一個客戶端有可能包含多個cookie),因此用cookie來標識用戶其 實指的是用戶使用的客戶端電腦,而並不是用戶自己。

用cookie識別用戶的方法固然也存在缺陷:最多見的就是cookie被清除而致使用戶沒法與原先記錄實現對應;同時因爲客戶端電腦會被共用,或者用戶會在不一樣的電腦上訪問你的網站,這個時候cookie就沒法直接對應到該用戶了。

獲取難度:★☆

準確度:★★☆

四、基於用戶ID的用戶識別

基於用戶ID的用戶識別是最爲準確,由於通常狀況下用戶不一樣共享他的用戶ID,因此咱們能夠認爲數據中的userid惟一地指向該用戶,幾乎不 存在誤差。固然要使用用戶ID來識別用戶是須要必定的前提條件的:網站必須是提供用戶註冊登陸服務的,而且能夠經過一些手段在點擊流數據中記錄 userid。

獲取難度:★★

準確度:★★★

因此對於一個須要用戶ID註冊登陸的網站來講,用戶惟一標識符的選擇能夠聽從如下順序:當用戶註冊登陸時以userid爲準,當用戶在未登陸狀 態瀏覽時以用戶的cookie爲準,當用戶未登陸且cookie沒法獲取的狀況下以IP+Agent爲準;這樣就能從最大程度上識別惟一用戶。

這裏推薦一個網站日誌中cookie項的自定義設置方法,以便更好地識別用戶。cookie是從用戶端存放的cookie文件記錄中獲取的,這 個文件裏面通常在包含一個cookieid的同時也會記下用戶在該網站的userid(若是你的網站須要註冊登錄而且該用戶曾經登陸過你的網站且 cookie未被刪除),因此在記錄日誌文件中cookie項的時候能夠優先去查詢cookie中是否含有用戶ID類的信息,若是存在則將用戶ID寫到日 志的cookie項,若是不存在則查找是否有cookieid,若是有則記錄,沒有則記爲」-」,這樣日誌中的cookie就能夠直接做爲最有效的用戶惟 一標識符被用做統計。固然這裏須要注意該方法只有網站自己纔可以實現,由於用戶ID做爲用戶隱私信息只有該網站才知道其在cookie的設置及存放位置, 第三方統計工具通常很難獲取。

獲取用戶信息的途徑

經過以上的方法實現用戶身份的惟一標識後,咱們能夠經過一些途徑來採集用戶的基礎信息、特徵信息及行爲信息,而後爲每位用戶創建起詳細的Profile:

1) 用戶註冊時填寫的用戶註冊信息及基本資料;

2) 從網站日誌中獲得的用戶瀏覽行爲數據;

3) 從數據庫中獲取的用戶網站業務應用數據;

4) 基於用戶歷史數據的推導和預測;

5) 經過直接聯繫用戶或者用戶調研的途徑得到的用戶數據;

6) 有第三方服務機構提供的用戶數據。

相關文章
相關標籤/搜索