R和Python機器學習:廣義線性迴歸glm,樣條glm,梯度加強,隨機森林和深度學習模型分析

原文連接:http://tecdat.cn/?p=7923

使用R和Python進行分析的主要好處之一是,它們充滿活力的開源生態系統中老是有新的和免費提供的服務。現在,愈來愈多的數據科學家可以同時在R,Python和其餘平臺上使用數據,這是由於供應商向R和Python引入了具備API的高性能產品,也許還有Java,Scala和Spark。服務器

H2O品牌被稱爲「商業AI」,「使任何人均可以輕鬆地應用數學和預測分析來解決當今最具挑戰性的業務問題。」 H2O的不同凡響之處在於其全面的,開源,跨平臺,機器學習基礎架構從頭開始,以實現可擴展性和速度。數據結構

在本練習中,我部署了R的數據管理功能來構建模型數據集,而後「導入」到H2o結構中以運行模型。我能夠輕鬆使用H2O功能。架構

概述的任務序列從數據加載和訓練/測試數據集構建開始。而後啓動H2O服務器,依次按glm,帶有三次樣條的glm,梯度加強,隨機森林和深度學習模型計算/繪製結果。提供了H2O數據集構建和模型訓練的時間。機器學習

首先加載R庫並設置工做目錄。性能

如今加載並子集用於建模練習的數據。 有8,644,171個案例和7個屬性。學習

下一步是將Acs2014劃分爲R中的訓練和測試數據表。對於咱們的分析,因變量是logincome,而功能包括年齡,性別,種族和教育程度。測試

啓動H2O服務器,分配16G RAM並使用全部8個內核。spa

如今從R data.tables建立H2O數據結構。咱們可使用data.frames / data.tables進行數據處理,也能夠直接使用H2O數據結構和功能。 3d

運行 線性模型(glm),並使用訓練數據對登陸年齡,性別,種族和教育程度進行迴歸。 blog

 

再次運行glm模型,此次使用年齡的三次樣條來顯示年齡和登陸名之間的曲線關係。

接下來,進行梯度加強,更可能是非參數的,重採樣的黑匣子模型。執行速度慢得多,反映出計算量很大。請 

如今讓咱們嘗試隨機森林。

最後是深度學習。

對模型性能的粗略檢查代表,使用這些數據和模型,梯度提高可能會產生最佳結果。固然,不一樣的訓練和測試數據集會產生不一樣的性能。

相關文章
相關標籤/搜索