[](http://tecdat.cn/?p=7661)爲了...,咱們必須使用PROC HPFOREST指定目標變量,並概述天氣變量是「類別」仍是「定量」。爲了進行此分析,咱們使用了目標(Repsone變量),該目標是分類的(SAS語言中標稱的),以下面的圖像代碼中所描述的黃色和紅色:算法
運行代碼後,咱們獲得了一系列表格,這些表格將詳細分析數據。例如,模型信息讓咱們知道,隨機選擇了3個變量來測試每一個節點或每一個樹中可能的分割(黃色)。咱們還能夠看到,運行的最大樹數爲100,如藍色下劃線所示。測試
HPFOREST僅使用在任何觀察值下均沒有缺失記錄的有效變量。可是,咱們還能夠看到,在研究樣本的213個國家中,有213個被利用。spa
接下來,咱們能夠看到模型生成帶有「基線擬合統計量」的表。就本研究中的數據而言,咱們能夠看到該模型識別出38%的誤分類,換句話說是62%的準確分類。這表示大部分樣本已在每一個隨機選擇的樣本中正確分類。 blog
在下表中分析森林時,咱們能夠看到誤分類率已經達到了最低點,這代表在OOB樣本中使用該模型進行測試時,誤分類率僅在22%。排序
最後,咱們看到SAS POC HPFOREST爲咱們提供了「損失減小變量的重要性」表。下表概述了每一個變量如何有助於模型的可預測性的重要性等級。以下圖所示,酒精變量排名最高。rem
如今,如下內容將幫助咱們理解如何閱讀表格:get
經過上面的練習,咱們能夠看到隨機森林是一種數據挖掘算法,能夠選擇重要的解釋變量,這些變量能夠用於肯定響應變量(目標變量)的分類結果仍是定量結果。此外,此練習還容許咱們結合使用分類變量和定量變量。總之,這個森林讓咱們知道哪些變量很重要,但彼此之間沒有關係。it