機器學習:在SAS中運行隨機森林

原文連接:http://tecdat.cn/?p=7661

[](http://tecdat.cn/?p=7661)爲了...,咱們必須使用PROC HPFOREST指定目標變量,並概述天氣變量是「類別」仍是「定量」。爲了進行此分析,咱們使用了目標(Repsone變量),該目標是分類的(SAS語言中標稱的),以下面的圖像代碼中所描述的黃色和紅色:算法

運行代碼後,咱們獲得了一系列表格,這些表格將詳細分析數據。例如,模型信息讓咱們知道,隨機選擇了3個變量來測試每一個節點或每一個樹中可能的分割(黃色)。咱們還能夠看到,運行的最大樹數爲100,如藍色下劃線所示。測試

HPFOREST僅使用在任何觀察值下均沒有缺失記錄的有效變量。可是,咱們還能夠看到,在研究樣本的213個國家中,有213個被利用。spa

接下來,咱們能夠看到模型生成帶有「基線擬合統計量」的表。就本研究中的數據而言,咱們能夠看到該模型識別出38%的誤分類,換句話說是62%的準確分類。這表示大部分樣本已在每一個隨機選擇的樣本中正確分類。 blog

 在下表中分析森林時,咱們能夠看到誤分類率已經達到了最低點,這代表在OOB樣本中使用該模型進行測試時,誤分類率僅在22%。排序

最後,咱們看到SAS POC HPFOREST爲咱們提供了「損失減小變量的重要性」表。下表概述了每一個變量如何有助於模型的可預測性的重要性等級。以下圖所示,酒精變量排名最高。rem

如今,如下內容將幫助咱們理解如何閱讀表格:get

  • 規則數:告訴咱們使用變量的拆分規則數
  • 每一個數據計算兩次:
  • Gini OOB:這是在「 Out of Bag」階段中計算出的數據 
  • 擬合統計告訴咱們,OOB數據的誤差較小,所以,數據經過OOB Gini度量進行排序 
  • 就預測自殺率高於正常水平而言,這些變量被列爲高度重要性(頂部)和最低重要性(底部)。 
  • 從下表中咱們能夠看出,最容易預測模型自殺率高於正常模型的變量是酒精消費量,就業率和城市率。 

經過上面的練習,咱們能夠看到隨機森林是一種數據挖掘算法,能夠選擇重要的解釋變量,這些變量能夠用於肯定響應變量(目標變量)的分類結果仍是定量結果。此外,此練習還容許咱們結合使用分類變量和定量變量。總之,這個森林讓咱們知道哪些變量很重要,但彼此之間沒有關係。it

相關文章
相關標籤/搜索