人工智能、機器學習、深度學習、神經網絡概念說明

首先要簡單區別幾個概念:人工智能,機器學習,深度學習,神經網絡。這幾個詞應該是出現的最爲頻繁的,可是他們有什麼區別呢?html

人工智能:人類經過直覺能夠解決的問題,如:天然語言理解,圖像識別,語音識別等,計算機很難解決,而人工智能就是要解決這類問題。算法

機器學習:機器學習是一種可以賦予機器學習的能力以此讓它完成直接編程沒法完成的功能的方法。但從實踐的意義上來講,機器學習是一種經過利用數據,訓練出模型,而後使用模型預測的一種方法。數據庫

深度學習:其核心就是自動將簡單的特徵組合成更加複雜的特徵,並用這些特徵解決問題。編程

神經網絡:最初是一個生物學的概念,通常是指大腦神經元,觸點,細胞等組成的網絡,用於產生意識,幫助生物思考和行動,後來人工智能受神經網絡的啓發,發展出了人工神經網絡。網絡

來一張圖就比較清楚了,以下圖:架構

機器學習的範圍

機器學習跟模式識別,統計學習,數據挖掘,計算機視覺,語音識別,天然語言處理等領域有着很深的聯繫。機器學習

      模式識別
  模式識別=機器學習。二者的主要區別在於前者是從工業界發展起來的概念,後者則主要源自計算機學科。在著名的《Pattern Recognition And Machine Learning》這本書中,Christopher M. Bishop在開頭是這樣說的「模式識別源自工業界,而機器學習來自於計算機學科。不過,它們中的活動能夠被視爲同一個領域的兩個方面,同時在過去的10年間,它們都有了長足的發展」。
  
  數據挖掘
  數據挖掘=機器學習+數據庫。這幾年數據挖掘的概念實在是太耳熟能詳。幾乎等同於炒做。但凡說數據挖掘都會吹噓數據挖掘如何如何,例如從數據中挖出金子,以及將廢棄的數據轉化爲價值等等。可是,我儘管可能會挖出金子,但我也可能挖的是「石頭」啊。這個說法的意思是,數據挖掘僅僅是一種思考方式,告訴咱們應該嘗試從數據中挖掘出知識,但不是每一個數據都能挖掘出金子的,因此不要神話它。一個系統絕對不會由於上了一個數據挖掘模塊就變得無所不能(這是IBM最喜歡吹噓的),偏偏相反,一個擁有數據挖掘思惟的人員纔是關鍵,並且他還必須對數據有深入的認識,這樣纔可能從數據中導出模式指引業務的改善。大部分數據挖掘中的算法是機器學習的算法在數據庫中的優化。

  統計學習
  統計學習近似等於機器學習。統計學習是個與機器學習高度重疊的學科。由於機器學習中的大多數方法來自統計學,甚至能夠認爲,統計學的發展促進機器學習的繁榮昌盛。例如著名的支持向量機算法,就是源自統計學科。可是在某種程度上二者是有分別的,這個分別在於:統計學習者重點關注的是統計模型的發展與優化,偏數學,而機器學習者更關注的是可以解決問題,偏實踐,所以機器學習研究者會重點研究學習算法在計算機上執行的效率與準確性的提高。
    
  計算機視覺
  計算機視覺=圖像處理+機器學習。圖像處理技術用於將圖像處理爲適合進入機器學習模型中的輸入,機器學習則負責從圖像中識別出相關的模式。計算機視覺相關的應用很是的多,例如百度識圖、手寫字符識別、車牌識別等等應用。這個領域是應用前景很是火熱的,同時也是研究的熱門方向。隨着機器學習的新領域深度學習的發展,大大促進了計算機圖像識別的效果,所以將來計算機視覺界的發展前景不可估量。
  
  語音識別
  語音識別=語音處理+機器學習。語音識別就是音頻處理技術與機器學習的結合。語音識別技術通常不會單獨使用,通常會結合天然語言處理的相關技術。目前的相關應用有蘋果的語音助手siri等。

  天然語言處理
  天然語言處理=文本處理+機器學習。天然語言處理技術主要是讓機器理解人類的語言的一門領域。在天然語言處理技術中,大量使用了編譯原理相關的技術,例如詞法分析,語法分析等等,除此以外,在理解這個層面,則使用了語義理解,機器學習等技術。做爲惟一由人類自身創造的符號,天然語言處理一直是機器學習界不斷研究的方向。按照百度機器學習專家餘凱的說法「聽與看,說白了就是阿貓和阿狗都會的,而只有語言纔是人類獨有的」。如何利用機器學習技術進行天然語言的的深度理解,一直是工業和學術界關注的焦點。分佈式

機器學習的方法

一、迴歸算法

在大部分機器學習課程中,迴歸算法都是介紹的第一個算法。緣由有兩個:一.迴歸算法比較簡單,介紹它可讓人平滑地從統計學遷移到機器學習中。二.迴歸算法是後面若干強大算法的基石,若是不理解迴歸算法,沒法學習那些強大的算法。迴歸算法有兩個重要的子類:即線性迴歸和邏輯迴歸。函數

實現方面的話,邏輯迴歸只是對對線性迴歸的計算結果加上了一個Sigmoid函數,將數值結果轉化爲了0到1之間的機率(Sigmoid函數的圖像通常來講並不直觀,你只須要理解對數值越大,函數越逼近1,數值越小,函數越逼近0),接着咱們根據這個機率能夠作預測,例如機率大於0.5,則這封郵件就是垃圾郵件,或者腫瘤是不是惡性的等等。從直觀上來講,邏輯迴歸是畫出了一條分類線,見下圖。學習

邏輯迴歸算法劃出的分類線基本都是線性的(也有劃出非線性分類線的邏輯迴歸,不過那樣的模型在處理數據量較大的時候效率會很低),這意味着當兩類之間的界線不是線性時,邏輯迴歸的表達能力就不足。

二、神經網絡

讓咱們看一個簡單的神經網絡的邏輯架構。在這個網絡中,分紅輸入層,隱藏層,和輸出層。輸入層負責接收信號,隱藏層負責對數據的分解與處理,最後的結果被整合到輸出層。每層中的一個圓表明一個處理單元,能夠認爲是模擬了一個神經元,若干個處理單元組成了一個層,若干個層再組成了一個網絡,也就是"神經網絡"。


在神經網絡中,每一個處理單元事實上就是一個邏輯迴歸模型,邏輯迴歸模型接收上層的輸入,把模型的預測結果做爲輸出傳輸到下一個層次。經過這樣的過程,神經網絡能夠完成很是複雜的非線性分類。

三、SVM(支持向量機)

支持向量機算法從某種意義上來講是邏輯迴歸算法的強化:經過給予邏輯迴歸算法更嚴格的優化條件,支持向量機算法能夠得到比邏輯迴歸更好的分類界線。可是若是沒有某類函數技術,則支持向量機算法最多算是一種更好的線性分類技術。

  可是,經過跟高斯「核」的結合,支持向量機能夠表達出很是複雜的分類界線,從而達成很好的的分類效果。「核」事實上就是一種特殊的函數,最典型的特徵就是能夠將低維的空間映射到高維的空間。

咱們如何在二維平面劃分出一個圓形的分類界線?在二維平面可能會很困難,可是經過「核」能夠將二維空間映射到三維空間,而後使用一個線性平面就能夠達成相似效果。也就是說,二維平面劃分出的非線性分類界線能夠等價於三維平面的線性分類界線。因而,咱們能夠經過在三維空間中進行簡單的線性劃分就能夠達到在二維平面中的非線性劃分效果。


  支持向量機是一種數學成分很濃的機器學習算法(相對的,神經網絡則有生物科學成分)。在算法的核心步驟中,有一步證實,即將數據從低維映射到高維不會帶來最後計算複雜性的提高。因而,經過支持向量機算法,既能夠保持計算效率,又能夠得到很是好的分類效果。所以支持向量機在90年代後期一直佔據着機器學習中最核心的地位,基本取代了神經網絡算法。直到如今神經網絡藉着深度學習從新興起,二者之間才又發生了微妙的平衡轉變。

四、聚類算法

  無監督算法中最典型的表明就是聚類算法。
  讓咱們仍是拿一個二維的數據來講,某一個數據包含兩個特徵。我但願經過聚類算法,給他們中不一樣的種類打上標籤,我該怎麼作呢?簡單來講,聚類算法就是計算種羣中的距離,根據距離的遠近將數據劃分爲多個族羣。
  聚類算法中最典型的表明就是K-Means算法。

五、降維算法

  降維算法也是一種無監督學習算法,其主要特徵是將數據從高維下降到低維層次。

降維算法的主要做用是壓縮數據與提高機器學習其餘算法的效率。經過降維算法,能夠將具備幾千個特徵的數據壓縮至若干個特徵。另外,降維算法的另外一個好處是數據的可視化,例如將5維的數據壓縮至2維,而後能夠用二維平面來可視。降維算法的主要表明是PCA算法(即主成分分析算法)。

六、推薦算法

推薦算法是目前業界很是火的一種算法,在電商界,如亞馬遜,天貓,京東等獲得了普遍的運用。推薦算法的主要特徵就是能夠自動向用戶推薦他們最感興趣的東西,從而增長購買率,提高效益。推薦算法有兩個主要的類別:

  一類是基於物品內容的推薦,是將與用戶購買的內容近似的物品推薦給用戶,這樣的前提是每一個物品都得有若干個標籤,所以才能夠找出與用戶購買物品相似的物品,這樣推薦的好處是關聯程度較大,可是因爲每一個物品都須要貼標籤,所以工做量較大。

  另外一類是基於用戶類似度的推薦,則是將與目標用戶興趣相同的其餘用戶購買的東西推薦給目標用戶,例如小A歷史上買了物品B和C,通過算法分析,發現另外一個與小A近似的用戶小D購買了物品E,因而將物品E推薦給小A。

  兩類推薦都有各自的優缺點,在通常的電商應用中,通常是兩類混合使用。推薦算法中最有名的算法就是協同過濾算法。

七、其餘

  除了以上算法以外,機器學習界還有其餘的如高斯判別,樸素貝葉斯,決策樹等等算法。可是上面列的六個算法是使用最多,影響最廣,種類最全的典型。機器學習界的一個特點就是算法衆多,發展百花齊放。

  下面作一個總結,按照訓練的數據有無標籤,能夠將上面算法分爲監督學習算法和無監督學習算法,但推薦算法較爲特殊,既不屬於監督學習,也不屬於非監督學習,是單獨的一類。

  監督學習算法:
  線性迴歸,邏輯迴歸,神經網絡,SVM

  無監督學習算法:
  聚類算法,降維算法

  特殊算法:
  推薦算法

  除了這些算法之外,有一些算法的名字在機器學習領域中也常常出現。但他們自己並不算是一個機器學習算法,而是爲了解決某個子問題而誕生的。你能夠理解他們爲以上算法的子算法,用於大幅度提升訓練過程。其中的表明有:梯度降低法,主要運用在線型迴歸,邏輯迴歸,神經網絡,推薦算法中;牛頓法,主要運用在線型迴歸中;BP算法,主要運用在神經網絡中;SMO算法,主要運用在SVM中。

機器學習的分類

目前機器學習主流分爲:監督學習,無監督學習,強化學習。

a) 監督學習是最多見的一種機器學習,它的訓練數據是有標籤的,訓練目標是可以給新數據(測試數據)以正確的標籤。例如,將郵件進行是否垃圾郵件的分類,一開始咱們先將一些郵件及其標籤(垃圾郵件或非垃圾郵件)一塊兒進行訓練,學習模型不斷捕捉這些郵件與標籤間的聯繫進行自我調整和完善,而後咱們給一些不帶標籤的新郵件,讓該模型對新郵件進行是不是垃圾郵件的分類。

b) 無監督學習經常被用於數據挖掘,用於在大量無標籤數據中發現些什麼。無監督主要有三種:聚類、離散點檢測和降維。

它的訓練數據是無標籤的,訓練目標是能對觀察值進行分類或者區分等。例如無監督學習應該能在不給任何額外提示的狀況下,僅依據全部「貓」的圖片的特徵,將「貓」的圖片從大量的各類各樣的圖片中將區分出來。

c) 強化學習一般被用在機器人技術上(例如機械狗),它接收機器人當前狀態,算法的目標是訓練機器來作出各類特定行爲。工做流程可能是:機器被放置在一個特定環境中,在這個環境裏機器能夠持續性地進行自我訓練,而環境會給出或正或負的反饋。機器會從以往的行動經驗中獲得提高並最終找到最好的知識內容來幫助它作出最有效的行爲決策。

機器學習模型的評估

拿貓的識別來舉例,假設機器經過學習,已經具有了必定的識別能力。那麼,咱們輸入4張圖片,機器的判斷以下:

經常使用的評價指標有三種:準確率(precision)、召回率(recall)和精準率(accuracy),其中:

Precision = TP/(TP+FP),表示咱們抓到的人中,抓對了的比例;

Recall = TP/ (TP+FN),表示咱們抓到的壞人佔全部壞人的比例;

Accuracy = (TP + TN)/ All ,表示識別對了(好人被識別成好人,壞人被識別成壞人)的比例。

三個指標越高,表示算法的適應性越好。

機器學習的應用

機器學習與大數據的結合產生了巨大的價值。基於機器學習技術的發展,數據可以「預測」。對人類而言,積累的經驗越豐富,閱歷也普遍,對將來的判斷越準確。例如常說的「經驗豐富」的人比「初出茅廬」的小夥子更有工做上的優點,就在於經驗豐富的人得到的規律比他人更準確。而在機器學習領域,根據著名的一個實驗,有效的證明了機器學習界一個理論:即機器學習模型的數據越多,機器學習的預測的效率就越好。

機器學習界的名言:成功的機器學習應用不是擁有最好的算法,而是擁有最多的數據!

  在大數據的時代,有好多優點促使機器學習可以應用更普遍。例如隨着物聯網和移動設備的發展,咱們擁有的數據愈來愈多,種類也包括圖片、文本、視頻等非結構化數據,這使得機器學習模型能夠得到愈來愈多的數據。同時大數據技術中的分佈式計算Map-Reduce使得機器學習的速度愈來愈快,能夠更方便的使用。種種優點使得在大數據時代,機器學習的優點能夠獲得最佳的發揮。

機器學習的子類--深度學習

2006年,Geoffrey Hinton在科學雜誌《Science》上發表了一篇文章,論證了兩個觀點:

  1.多隱層的神經網絡具備優異的特徵學習能力,學習獲得的特徵對數據有更本質的刻畫,從而有利於可視化或分類;

  2.深度神經網絡在訓練上的難度,能夠經過「逐層初始化」 來有效克服。

經過這樣的發現,不只解決了神經網絡在計算上的難度,同時也說明了深層神經網絡在學習上的優異性。今後,神經網絡從新成爲了機器學習界中的主流強大學習技術。同時,具備多個隱藏層的神經網絡被稱爲深度神經網絡,基於深度神經網絡的學習研究稱之爲深度學習。

  目前業界許多的圖像識別技術與語音識別技術的進步都源於深度學習的發展,除了本文開頭所提的Cortana等語音助手,還包括一些圖像識別應用,其中典型的表明就是下圖的百度識圖功能。 

  深度學習屬於機器學習的子類。基於深度學習的發展極大的促進了機器學習的地位提升,更進一步地,推進了業界對機器學習父類人工智能夢想的再次重視。

機器學習的父類--人工智能

  人工智能是機器學習的父類。深度學習則是機器學習的子類。若是把三者的關係用圖來代表的話,則是下圖:

 

  總結起來,人工智能的發展經歷了以下若干階段,從早期的邏輯推理,到中期的專家系統,這些科研進步確實使咱們離機器的智能有點接近了,但還有一大段距離。直到機器學習誕生之後,人工智能界感受終於找對了方向。基於機器學習的圖像識別和語音識別在某些垂直領域達到了跟人相媲美的程度。機器學習令人類第一次如此接近人工智能的夢想。

 讓咱們再看一下機器人的製造,在咱們具備了強大的計算,海量的存儲,快速的檢索,迅速的反應,優秀的邏輯推理後咱們若是再配合上一個強大的智慧大腦,一個真正意義上的人工智能也許就會誕生,這也是爲何說在機器學習快速發展的如今,人工智能可能再也不是夢想的緣由。

  人工智能的發展可能不只取決於機器學習,更取決於前面所介紹的深度學習,深度學習技術因爲深度模擬了人類大腦的構成,在視覺識別與語音識別上顯著性的突破了原有機器學習技術的界限,所以極有多是真正實現人工智能夢想的關鍵技術。不管是谷歌大腦仍是百度大腦,都是經過海量層次的深度學習網絡所構成的。也許藉助於深度學習技術,在不遠的未來,一個具備人類智能的計算機真的有可能實現。

 

出處:

https://www.cnblogs.com/lizheng114/p/7439556.html

http://www.cnblogs.com/subconscious/p/4107357.html

相關文章
相關標籤/搜索