數據分析實戰項目(一)

淘寶用戶行爲分析
mysql


項目背景和數據

經過此項目學習電商數據分析的指標與數據分析的基本方法。

數據來源

阿里雲天池數據庫sql

數據描述

  • 數據集介紹
文件名稱 說明 包含特徵
UserBehavior.csv 包含全部的用戶行爲數據 用戶ID,商品ID,商品類目ID,行爲類型,時間戳
  • UserBehavior.csv
本數據集包含了2017年11月25日至2017年12月3日之間,有行爲的約一百萬隨機用戶的全部行爲(行爲包括點擊、購買、加購、喜歡)。
數據集的組織形式和MovieLens-20M相似,即數據集的每一行表示一條用戶行爲,由用戶ID、商品ID、商品類目ID、行爲類型和時間戳組成,並以逗號分隔。關於數據集中每一列的詳細描述以下:
列名稱 說明
用戶ID 整數類型,序列化後的用戶ID
商品ID 整數類型,序列化後的商品ID
商品類目ID 整數類型,序列化後的商品所屬類目ID
行爲類型 字符串,枚舉類型,包括('pv', 'buy', 'cart', 'fav')
時間戳 行爲發生的時間戳
  • 用戶行爲類型共有四種
行爲類型 說明
pv 商品詳情頁pv,等價於點擊
buy 商品購買
cart 將商品加入購物車
fav 收藏商品
  • 關於數據集大小的一些說明以下
維度 數量
用戶數量 987,994
商品數量 4,162,024
商品類目數量 9,439
全部行爲數量 100,150,807

分析維度

根據現有數據及分析目的,從四個維度進行分析:數據庫

# 第一個維度:用戶購物狀況總體分析
以PV、UV、平均訪問量、跳失率等指標,分析用戶最活躍的日期及活躍時段,瞭解用戶行爲習慣

# 第二個維度:商品購買狀況分析
從成交量、人均購買次數、復購率等指標,探索用戶對商品的購買偏好,瞭解商品的銷售規律

# 第三個維度:用戶行爲轉化漏斗分析
從收藏轉化率、購物車轉化率、成交轉化率,對用戶行爲從瀏覽到購買進行漏斗分析

# 第四個維度:參照RFM模型,對用戶進行分類,找出有價值的用戶

分析流程

提出問題------理解數據------數據清洗------構建模型------數據可視化學習

提出問題

用戶最活躍的日期及時段
用戶對商品有哪些購買偏好
用戶行爲間的轉化狀況
用戶分類,哪些是有價值的用戶

理解數據

見數聽說明阿里雲

數據清洗

包含數據導入(採用SQLyog)、缺失值處理、一致化處理、異常值處理(2017.11.25到2017.12.3日內的數據)code

構建模型

數據可視化

問題及解決方法

這個CSV數據3.4G,行數1億多,這個數據如何導入MYSQL?

相關文章
相關標籤/搜索