這是我在2015年高德負責P6晉升評審爲團隊成員準備的要點,整理下。前端
框架優劣,實現方式,性能對比python
在沒索引的維度較慢
阿里生態圈的喜與優web
外網工具豐富算法
web工做臺
運維控制檯
可靠工做流網絡
閉門造車,輪子過期
須要多部門協助架構
採集 — 收容 — 計算 — 導出 — 存儲 — 服務 — 前端框架
全部功能部署一塊兒,ORM 是核心運維
拆分應用, MVC 是核心dom
核心業務抽取複用, RPCscrapy
提升機器利用率, SOA
清洗 :
髒數據 (亂碼,機型非法取值)
空缺值(日誌記錄不規範,常常出現某些平臺字段爲空)
噪聲 (取值非法)
分箱
離羣挖掘
迴歸
集成:
冗餘屬性 (重複字段,同一字段命名不一樣)
數值衝突檢測( 單位不一樣,字段長度不一樣)
變換:
歸一化
投影 (PCA)
歸約
數據壓縮 (空間索引,小波變換,PCA,迴歸,機率分佈模型,粗糙集,採樣)
維度規約 特徵提取
離散化 值區間
SVM
隨機森林
GBDT
神經網絡
基於劃分
Kmean
KMeoid
EM
基於密度
DBScan
Optics
基於層次
自頂向下
自底向上
基於柵格
String
WaveCluster
線性迴歸
邏輯迴歸
FPGrowth
Aprioi
元胞自動機
空間尺度變化模型
空間自迴歸(SAR)
層次貝葉斯
規則掃描
數據規則
業務規則
白盒測試
MR 單元測試
MR 集成測試
MR 性能測試
Job 監控
Job 性能
Job 配置
Job 報警
算法收益對比
可視化對比工具
收益統計工具
AB Test
高效,可靠,分佈式的數據服務
日誌監控
日誌迴流
整個工做流最核心的一步,根據現有數據選擇算法,生成訓練模型。主要是算法選擇和參數調整
算法的選擇,須要對算法性能和精度以及編碼實現難度進行衡量和取捨。 (甚至算法工具箱對數據集的限制狀況都是算法選擇考慮的內容) 實際工程上,不考慮算法複雜度超過O(N^2)的算法。Java的Weka和Python的Scipy是很好的數據挖掘分析工具。
參數調整。這是一門神奇的技能,只能在實際過程當中體會。
這一步主要是針對監督算法(分類,迴歸),爲了防止模型的Overfit,須要測試算法模型的覆蓋能力和性能。方法包括Holdout,還有random subsampling.
非監督算法(聚類),採用更加具體的指標,包括熵,純度,精度,召回等。
數據挖掘不是一個靜態的過程,須要不斷對模型從新評估,衡量,修正。算法模型的生命週期也是一個值得探討的話題。