機器學習：在SAS中運行隨機森林

時間 2020-03-20

標籤機器學習 sas 運行隨機森林简体版

原文原文鏈接

[](http://tecdat.cn/?p=7661)爲了...，咱們必須使用PROC HPFOREST指定目標變量，並概述天氣變量是「類別」仍是「定量」。爲了進行此分析，咱們使用了目標（Repsone變量），該目標是分類的（SAS語言中標稱的），以下面的圖像代碼中所描述的黃色和紅色：算法

運行代碼後，咱們獲得了一系列表格，這些表格將詳細分析數據。例如，模型信息讓咱們知道，隨機選擇了3個變量來測試每一個節點或每一個樹中可能的分割（黃色）。咱們還能夠看到，運行的最大樹數爲100，如藍色下劃線所示。測試

HPFOREST僅使用在任何觀察值下均沒有缺失記錄的有效變量。可是，咱們還能夠看到，在研究樣本的213個國家中，有213個被利用。spa

接下來，咱們能夠看到模型生成帶有「基線擬合統計量」的表。就本研究中的數據而言，咱們能夠看到該模型識別出38％的誤分類，換句話說是62％的準確分類。這表示大部分樣本已在每一個隨機選擇的樣本中正確分類。 blog

在下表中分析森林時，咱們能夠看到誤分類率已經達到了最低點，這代表在OOB樣本中使用該模型進行測試時，誤分類率僅在22％。排序

最後，咱們看到SAS POC HPFOREST爲咱們提供了「損失減小變量的重要性」表。下表概述了每一個變量如何有助於模型的可預測性的重要性等級。以下圖所示，酒精變量排名最高。rem

如今，如下內容將幫助咱們理解如何閱讀表格：get

經過上面的練習，咱們能夠看到隨機森林是一種數據挖掘算法，能夠選擇重要的解釋變量，這些變量能夠用於肯定響應變量（目標變量）的分類結果仍是定量結果。此外，此練習還容許咱們結合使用分類變量和定量變量。總之，這個森林讓咱們知道哪些變量很重要，但彼此之間沒有關係。it

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。