向AI轉型的程序員都關注了這個號👇👇👇html
機器學習AI算法工程 公衆號:datayxpython
Apache Spark 是專爲大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架,Spark擁有Hadoop MapReduce所具備的優勢;但不一樣MapReduce的是Job中間輸出結果能夠保存在內存中,從而再也不須要讀寫HDFS,所以Spark能更好 適用於數據挖掘與機器學習等須要迭代的MapReduce的算法。程序員
Spark提供了一個更快、更通用的數據處理平臺。和Hadoop相比,Spark可讓你的程序在內存中運行時速度提高100倍,或者在磁盤上運行時速度提高10倍。去年,在100 TB Daytona GraySort比賽中,Spark打敗了Hadoop,它只使用了十分之一的機器,但運行速度提高了3倍。Spark也已經成爲針對 PB 級別數據排序的最快的開源引擎。web
Spark支持Scala、Java、Python、R等接口,本文均使用Python環境進行學習。面試
Spark在Windows下的環境搭建
https://blog.csdn.net/u011513853/article/details/52865076算法
https://www.jianshu.com/p/ede10338a932
apache
pyspark官方文檔http://spark.apache.org/docs/2.1.2/api/python/index.htmlflask
基於PySpark的模型開發
會員流失預測模型
通用模型開發流程api
需求溝通與問題確立微信
定義流失口徑:好比,流失客戶定義爲最近一次購買日期距今的時間大於平均購買間期加3倍的標準差;非流失客戶定義爲波動比較小,購買頻次比較穩定的客戶
選定時間窗口:好比,選擇每一個會員最近一次購買時間回溯一年的歷史訂單狀況
推測可能的影響因素:頭腦風暴,特徵初篩,從業務角度出發,儘量多的篩選出可能的影響因素做爲原始特徵集
數據整合與特徵工程
1)把來自不一樣表的數據整合到一張寬表中,通常是經過SQL處理
2)數據預處理和特徵工程
模型開發與效果評估
1)樣本數據先按照正負例分別隨機拆分,而後分別組成訓練和測試集,保證訓練集和測試集之間沒有重複數據,訓練集和測試集正負例比例基本一致,最終兩個數據集中正負例比例均接近1:1
2)對於創建模型而言並不是特徵越多越好,建模的目標是使用盡可能簡單的模型去實現儘可能好的效果。減小一些價值小貢獻小的特徵有利於在表現效果不變或下降很小的前提下,找到最簡單的模型。
使用卡方檢驗對特徵與因變量進行獨立性檢驗,若是獨立性高就表示二者沒太大關係,特徵能夠捨棄;若是獨立性小,二者相關性高,則說明該特徵會對應變量產生比較大的影響,應當選擇。
3)CV或者TVS將數據劃分爲訓練數據和測試數據,對於每一個(訓練,測試)對,遍歷一組參數。用每一組參數來擬合,獲得訓練後的模型,再用AUC和ACC評估模型表現,選擇性能表現最優模型對應參數表。
模型應用與迭代優化
應用模型預測結果/評分進行精細化營銷或者挽回,同時不斷根據實際狀況優化模型,再用優化後的模型從新預測,造成一個迭代優化的閉環。
模型代碼
附1:本地開發的Python代碼
地址 https://www.jianshu.com/p/5a5fc30a7a70
閱讀過本文的人還看了如下:
分享《深度學習入門:基於Python的理論與實現》高清中文版PDF+源代碼
《21個項目玩轉深度學習:基於TensorFlow的實踐詳解》完整版PDF+附書代碼
李沐大神開源《動手學深度學習》,加州伯克利深度學習(2019春)教材
【Keras】完整實現‘交通標誌’分類、‘票據’分類兩個項目,讓你掌握深度學習圖像分類
如何利用全新的決策樹集成級聯結構gcForest作特徵工程並打分?
Machine Learning Yearning 中文翻譯稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
中科院Kaggle全球文本匹配競賽華人第1名團隊-深度學習與特徵工程
不斷更新資源
深度學習、機器學習、數據分析、python
搜索公衆號添加: datayx
長按圖片,識別二維碼,點關注
AI項目體驗
https://loveai.tech
本文分享自微信公衆號 - 機器學習AI算法工程(datayx)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。