如何架構機器學習平臺

時間 2019-11-09

原文原文鏈接

愈來愈多企業開始嘗試使用機器學習算法來預測業務，並逐漸在線上部署。但機器學習和深度學習的技術棧繁渣。有多種編程語言，運行環境。穩定性，可用性，維護方式不一樣以往的IT服務。技術負責人須要設計良好的架構，發掘業務潛力也要保障生產系統穩定性。本文主要介紹：html

1.理解機器學習算法訓練流程。前端

2.提供線上模型部署架構方案java

3.掌握模型治理和運維的方案。python

1.機器學習應用的領域：

電商：推薦系統c++

金融：反欺詐，打分卡，信用評分算法

安全：攻擊檢測數據庫

2.什麼是模型：

你們都知道機器學習訓練是爲了獲得模型。那什麼是模型呢？編程

假設以下算法用於預測房價。後端

Y=w1*x1+w2*x2+wn*xn +bapi

所謂模型訓練就是找到預測最準的[w1,w2,wn,b]參數。訓練結束後，將[w1,w2,wn,b] .存儲到文件中，能夠稱爲模型。模型就等於訓練獲得的參數

部署到生產時候，使用保存的[w1,w2,wn,b] 初始化 Y=w1*x1+w2*x2+wn*xn+b。這個模型就能夠用來預測房價。

整個過程相似序列化，反序列化過程。

3.機器學習工具集：

Scikit learn (python)

Tensorflow (python,c++)

spark mlib (java)

Mahout (java)

Dl4j

各類工具都不能互相替代。生成的模型文件格式不一樣，編程語言不一樣。

甚至是一樣參數用不一樣工具預測結果會相差很大。

4.模型表達通用標準：

PMML 是一種事實標準語言，用於呈現數據挖掘模型。預測分析模型和數據挖掘模型是指代數學模型的術語，這些模型採用統計技術瞭解大量歷史數據中隱藏的模式。預測分析模型採用定型過程當中獲取的知識來預測新數據中是否有已知模式。PMML 容許您在不一樣的應用程序之間輕鬆共享預測分析模型。所以，您能夠在一個系統中定型一個模型，在 PMML 中對其進行表達，而後將其移動到另外一個系統中，並在該系統中使用上述模型預測機器失效的可能性等

https://www.ibm.com/developerworks/cn/opensource/ind-PMML1/

有幾點須要注意：

PMML支持部分模型。

各類工具都有生成PMML功能。

能夠經過開源Openscoring 來部署PMML模型。Drools 也只支持PMML.