9.1聚類分析的經典應用場景
- 目標用戶羣體分類
- 不一樣產品的價值組合
- 探測、發現孤立點、異常值
9.2主要聚類算法的分類
9.3聚類分析在實踐應用中的重點注意事項
數據化運營中聚類算法主要是K-Means算法,但其對噪聲和異常值很是敏感(K-Means算法用的是平均值來聚類)算法
9.3.1針對數據噪聲和異常值的處理工具
- 直接刪除那些比任何數據點都要遠離聚類中心點的異常值
- 隨機抽樣規避數據噪聲的影響
9.3.2數據標準化
數據標準化是聚類分析中最重要的一個數據預處理步驟,它便可覺得聚類計算中的各個屬性賦予相同的權重,還能夠有效化解不一樣屬性因度量單位不統一所帶來的潛在的數量等級的差別測試
數據標準化有不少不一樣方式,標準差標準化最經常使用(Z-Score標準化),處理後數據符合標準正態分佈,即均值爲0,標準差爲1,轉化公式以下:spa
9.3.3聚類變量少而精3d
9.4聚類分析的擴展應用
9.4.1聚類的核心指標與非聚類的業務指標相輔相成數據分析
先經過用戶行爲屬性的核心字段進行聚類分羣,獲得比較滿意的聚類分羣結果以後,針對每一個具體的細分羣體,再分別考察用戶的會員屬性(年齡、性別、地域、收入、愛好等)產品
9.4.2數據的探索和清理工具變量
- 聚類技術產生的聚類類別能夠做爲一個新的字段加入其它的模型搭建過程當中
- 聚類技術能夠做爲細分羣體的建模依據
- 聚類技術的應用自己就是數據探索和熟悉的過程
- 聚類技術對變量的聚類是精簡變量的有效方法
- 聚類技術還能夠用檢查數據的共線性問題
9.4.3個性化推薦應用擴展
9.5聚類分析在實際應用中的優點和缺點
K-Means算法的優勢:
- 算法成熟可靠
- 不只是模型技術,直接響應業務需求,同時仍是數據分析前的數據摸底和數據清洗的效思想和工具
- 聚類技術比較容易用商業和業務邏輯來理解和解釋
- K-Means算法簡潔、高效,算法時間複雜度是O(tkn,t是循環次數(算法收斂是已經迭代次數),K是聚類的個數(類別數量),n是數據點的個數(樣本數量),因爲t和k遠遠小於n,因此算法時間複雜度與數據集的大小線性相關)
- K-Means算法是一個不依賴順序的算法
K-Means算法的缺點:
- 數據分析師須要事先指定聚類的數目k,在實踐中要測試多個不一樣的k值才能根效果比較來選擇最合適的k值
- 算法對數據噪聲和異常值比較敏感
9.6聚類分析結果的評價體系和評價指標
9.6.1業務方的評估
9.6.2聚類技術上的評價指標
9.7一個典型的聚類分析課題的案例分享
- 案例背景
- 基本的數據摸底
- 基於用戶樣本的聚類分析的初步結論