第九章：聚類分析的典型應用和技術小竅門

時間 2020-05-07

標籤第九分析典型應用技術竅門简体版

原文原文鏈接

數據化運營中聚類算法主要是K-Means算法，但其對噪聲和異常值很是敏感（K-Means算法用的是平均值來聚類）算法

9.3.1針對數據噪聲和異常值的處理工具

數據標準化是聚類分析中最重要的一個數據預處理步驟，它便可覺得聚類計算中的各個屬性賦予相同的權重，還能夠有效化解不一樣屬性因度量單位不統一所帶來的潛在的數量等級的差別測試

數據標準化有不少不一樣方式，標準差標準化最經常使用（Z-Score標準化），處理後數據符合標準正態分佈，即均值爲0，標準差爲1，轉化公式以下：spa

9.3.3聚類變量少而精3d

9.4.1聚類的核心指標與非聚類的業務指標相輔相成數據分析

　　先經過用戶行爲屬性的核心字段進行聚類分羣，獲得比較滿意的聚類分羣結果以後，針對每一個具體的細分羣體，再分別考察用戶的會員屬性（年齡、性別、地域、收入、愛好等）產品

9.4.2數據的探索和清理工具變量

9.4.3個性化推薦應用擴展

K-Means算法的優勢：

算法成熟可靠
不只是模型技術，直接響應業務需求，同時仍是數據分析前的數據摸底和數據清洗的效思想和工具
聚類技術比較容易用商業和業務邏輯來理解和解釋
K-Means算法簡潔、高效，算法時間複雜度是O(tkn,t是循環次數（算法收斂是已經迭代次數），K是聚類的個數（類別數量），n是數據點的個數（樣本數量），因爲t和k遠遠小於n，因此算法時間複雜度與數據集的大小線性相關)
K-Means算法是一個不依賴順序的算法