大白話5分鐘帶你走進人工智能-第二十二節決策樹系列之概念介紹(1)

                                                            第二十二節決策樹系列之概念介紹(1)面試

本系列咱們講一個新算法及其衍生出來的系列算法,決策樹,隨機森林以及集成學習。不管是線性迴歸,邏輯迴歸,SVM,最大熵模型也好,都是w作參數,而咱們的最終結果不管須要預測仍是要分類,都是把x跟w互相搞一搞,而後得出一個結果。咱們的y是經過x跟本身學的參數計算出來的,而決策樹是經過一個樹形的結構,來把咱們的預測和分類問題完成。算法

決策樹既能作預測也能作分類,它本質上最直觀的是用來作分類,可是經過一點點的調整也能夠用來作預測。決策樹的起源很是早,所謂最先時期的人工智能就是指這。編程

好比拿下棋舉例,第1節點表示對方走了一步棋,而後再走一步棋,走到2這個節點,當走到4這個節點的時候,有可能再走回1這個節點。每個節點之間連線表明一個狀態,這個狀態也叫有限狀態機所謂的有限狀態機就是指就有若干的狀態,每一個狀態之間能夠互相轉換。app

好比說對方第一步走的是第一種狀態,你就作出一個決策,對方第二步走到另一個狀態,你就跳到另外一個決策,在早期的遊戲AI裏面一般都是用這種方式來作。它背後都是一個有限狀態機,看到你作了什麼狀況,就跑到某一個狀態去執行一個決策,發現你又變成另外一個狀態,它有可能跳回原來那個狀態去執行以前的決策,因此它是根據不一樣的形式評估,而後在不一樣的狀態之間跳轉,有不一樣的策略執行。每個狀態其實都有多是一個子函數,背後取作一系列的操做。當有限狀態機設計的特別複雜的時候,必定程度上它就具有必定的智能。機器學習

因此那個時代裏所謂的人工智能就是發現對方往前走了,下一步應該作什麼?背後其是一系列特別複雜的策略寫的程序存到計算機裏面,就至關於在編寫這個程序的時候,你替計算機想到了全部一切可能發生的狀況,告訴它遇到什麼狀況就幹什麼,因此看起來像是在模仿人類作決策的過程,其實背後就是一堆的if else。函數

因此人工智能裏面有一句笑話叫有多少人工就有多少智能,在那個時代說的確實對,人想到了多少事,計算機只是幫你記下來,遇到這個狀況的時候,去執行這個程序,這個就叫顯示編程學習

而機器學習推翻了那種思路,它想經過不須要你顯示編程的方式,讓計算機從數據集中經過某些合理的算法,本身大量計算後,獲得一些信息。ui

簡單來講,人工智能主要解決兩個問題,一是決策問題,就是全部數據給你以後,你應該作什麼?大部分數據挖掘就是作這件事情,幫人們作一些決策。二是識別問題,把天然界中沒有整理好的數據及丟給計算機,讓它能認識這個東西是什麼,好比圖像識別,語音識別,好比天然語音處理。人工智能

決策和識別哪一個更復雜一點?識別,讓計算機理解人才能理解的東西更復雜。它的幾個分支,一個是CV計算機視覺,一個是NLP天然語言處理,好比咱們積累了大量的數據在移動互聯網裏,那麼這些數據是未經處理的,怎麼樣從中提取信息,基本上是天然語言處理要作的事。spa

可是各個分支不會是本身獨立的一部分,作決策也須要這些支撐。好比阿里天氣競賽有一個健康綠色的比賽,它裏面要根據幾萬我的的體檢報告給參賽者,去評估人的血壓血脂各類指標。那裏面不少數據的維度並非整理好的數據,而是x1到xn是一組數,不少給你的原始數據是醫生寫的評語。那麼在作數據預處理的時候,也須要用一些簡單的天然語言處理模型來把它先轉換成計算機能夠認識的語言。

回到決策樹身上,其實決策樹自己做爲一個樹形結構其實就是一堆if else

如今決策樹也應用在了有監督機器學習模型上。

舉個例子,好比quitting time是下班時間,你要作一個決策,今天到底晚上要不要學習?假以下班時間早於6點半,你會看今天要不要和女友去約個會;若是今天沒有約會,回家也沒有什麼事情作,有可能就學習(Y)了;若是今每天氣好,出去玩,確定就會致使不學習(N);假如9點半以後才下班,回家已經很是累了,你看跳槽的面試時間(deadline)還有兩天以上,今天就休息,不學習了(N);或者面試已通過去兩天了,心情已經平復下來,暫時也不學習(N)了;明天就要面試了,就可能學習(Y)。

這就是一個簡單的決策樹的形式,上面的圖就是一棵樹,咱們稱這棵樹quitting time這個節點叫作根節點,下面真正要去作決策的節點叫作葉子節點

如今這棵已經作好給你了,怎麼作預測?來一條數據第一個維度記錄着今天這我的下班的時間,第二個維度是有沒有約會,第三個維度是deadline截止日期還有多少?有了這三個數據,只要扔到這個樹裏邊,它在每個葉子結點要分裂的時候去讀取相應的數據判斷一下到底分到哪枝了,而後再讀取數據來判斷一下最後的結果。

樹在生長的過程當中可不可能出現兩個一樣維度?好比have  a date分裂條件是true的狀況下會接着再出現quitting time嗎?在這個例子裏面貌似是不會出現的,在實際的例子中這樣是沒問題的,只不過賦予它的意義有點矛盾了,但對某些數據的具體實際含義來講,也有可能出現屢次的。

相關文章
相關標籤/搜索