一文讀懂機器學習，大數據/天然語言處理/算法全有了……

時間 2019-11-12

標籤一文讀懂機器學習數據天然語言處理算法全有简体版

原文原文鏈接

原文地址
http://www.open-open.com/lib/view/open1420615208000.html
http://www.cnblogs.com/subconscious/p/4107357.html

引論

在本篇文章中，我將對機器學習作個概要的介紹。本文的目的是能讓即使全然不瞭解機器學習的人也能瞭解機器學習。並且上手相關的實踐。html

這篇文檔也算是 EasyPR開發的番外篇，從這裏開始，必須對機器學習瞭解才幹進一步介紹EasyPR的內核。算法

固然，本文也面對通常讀者，不會對閱讀有相關的前提要求。數據庫

在進入正題前，我想讀者心中可能會有一個疑惑：機器學習有什麼重要性，以致於要閱讀完這篇很是長的文章呢？編程

我並不直接回答這個問題前。相反。我想請你們看兩張圖
下圖是圖一：

圖1 機器學習界的執牛耳者與互聯網界的大鱷的聯姻markdown

這幅圖上上的三人是當今機器學習界的執牛耳者。網絡

中間的是Geoffrey Hinton, 加拿大多倫多大學的教授。現在被聘爲「Google大腦」的負責人。
右邊的是Yann LeCun, 紐約大學教授，現在是Facebook人工智能實驗室的主任。
而左邊的你們都很是熟悉，Andrew Ng，中文名吳恩達，斯坦福大學副教授，現在也是「百度大腦」的負責人與百度首席科學家。架構

這三位都是眼下業界煊赫一時的大牛，被互聯網界大鱷求賢若渴的聘請。足見他們的重要性。機器學習

而他們的研究方向。則所有都是機器學習的子類–深度學習。分佈式

下圖是圖二：

圖2 語音助手產品函數

這幅圖上描寫敘述的是什麼？Windows Phone上的語音助手Cortana，名字來源於《光環》中士官長的助手。

相比其它競爭對手，微軟很是遲才推出這個服務。Cortana背後的核心技術是什麼，爲何它可以聽懂人的語音？其實，這個技術正是機器學習。機器學習是所有語音助手產品(包括Apple的siri與Google的Now)可以跟人交互的關鍵技術。

經過上面兩圖，我相信你們可以看出機器學習彷佛是一個很是重要的，有很是多未知特性的技術。

學習它彷佛是一件有趣的任務。實際上，學習機器學習不只可以幫助咱們瞭解互聯網界最新的趨勢。同一時候也可以知道伴隨咱們的便利服務的實現技術。

機器學習是什麼，爲何它能有這麼大的魔力，這些問題正是本文要回答的。同一時候，本文叫作「從機器學習談起」，所以會以漫談的形式介紹跟機器學習相關的所有內容。包括學科(如數據挖掘、計算機視覺等)。算法(神經網絡，svm)等等。

一個故事說明什麼是機器學習

機器學習這個詞是讓人疑惑的，首先它是英文名稱Machine Learning(簡稱ML)的直譯，在計算界Machine通常指計算機。這個名字使用了擬人的手法，說明了這門技術是讓機器「學習」的技術。

但是計算機是死的。怎麼可能像人類同樣「學習」呢？

傳統上假設咱們想讓計算機工做，咱們給它一串指令。而後它遵守這個指令一步步運行下去。有因有果，很是明白。但這種方式在機器學習中行不通。機器學習根本不接受你輸入的指令，相反，它接受你輸入的數據! 也就是說。機器學習是一種讓計算機利用數據而不是指令來進行各類工做的方法。這聽起來很是難以想象。但結果上倒是很是可行的。

「統計」思想將在你學習「機器學習」相關理念時無時無刻不伴隨，相關而不是因果的概念將是支撐機器學習可以工做的核心概念。

你會顛覆對你曾經所有程序中創建的因果無處不在的根本理念。

如下我經過一個故事來簡單地闡明什麼是機器學習。這個故事比較適合用在知乎上做爲一個概念的闡明。在這裏，這個故事沒有展開，但相關內容與核心是存在的。

假設你想簡單的瞭解一下什麼是機器學習。那麼看完這個故事就足夠了。假設你想了解機器學習的不少其它知識以及與它關聯緊密的當代技術。那麼請你繼續往下看，後面有不少其它的豐富的內容。

這個樣例來源於我真實的生活經驗，我在思考這個問題的時候忽然發現它的過程可以被擴充化爲一個完整的機器學習的過程，所以我決定使用這個樣例做爲所有介紹的開始。這個故事稱爲「等人問題」。

我相信你們都有跟別人相約。而後等人的經歷。

現實中不是每個人都那麼守時的，因而當你碰到一些愛遲到的人，你的時間不可避免的要浪費。

我就碰到過這種一個樣例。

對個人一個朋友小Y而言，他就不是那麼守時。最多見的表現是他經常遲到。當有一次我跟他約好3點鐘在某個麥當勞見面時，在我出門的那一刻我忽然想到一個問題：我現在出發合適麼？我會不會又到了地點後，花上30分鐘去等他？我決定採取一個策略解決問題。

要想解決問題，有好幾種方法。
第一種方法是採用知識：我搜尋可以解決問題的知識。但很是遺憾，沒有人會把怎樣等人這個問題做爲知識傳授。所以我不可能找到已有的知識可以解決問題。
另一種方法是問他人：我去詢問他人得到解決問題的能力。

但是相同的。這個問題沒有人可以解答。因爲可能沒人碰上跟我同樣的狀況。
第三種方法是準則法：我問本身的心裏。我有否設立過什麼準則去面對這個問題？好比。無論別人怎樣。我都會守時到達。

但我不是個死板的人，我沒有設立過這種規則。

其實。我相信有種方法比以上三種都合適。我把過往跟小Y相約的經歷在腦海中重現一下。看看跟他相約的次數中，遲到佔了多大的比例。

而我利用這來預測他此次遲到的可能性。

假設這個值超出了我內心的某個界限，那我選擇等一會再出發。假設我跟小Y約過5次，他遲到的次數是1次。那麼他按時到的比例爲 80%，我心中的閾值爲70%，我以爲此次小Y應該不會遲到。所以我按時出門。

假設小Y在5次遲到的次數中佔了4次，也就是他按時到達的比例爲20%，由於這個值低於個人閾值，所以我選擇推遲出門的時間。這種方法從它的利用層面來看。又稱爲經驗法。在經驗法的思考過程當中。我其實利用了以往所有相約的數據。所以也可以稱之爲依據數據作的推斷。

依據數據所作的推斷跟機器學習的思想根本上是一致的。

剛纔的思考過程我僅僅考慮「頻次」這種屬性。

在真實的機器學習中，這可能都不算是一個應用。通常的機器學習模型至少考慮兩個量：一個是因變量，也就是咱們但願預測的結果，在這個樣例裏就是小Y遲到與否的推斷。還有一個是自變量，也就是用來預測小Y是否遲到的量。假設我把時間做爲自變量。譬如我發現小Y所有遲到的日子基本都是星期五，而在非星期五狀況下他基本不遲到。因而我可以創建一個模型。來模擬小Y遲到與否跟日子是不是星期五的機率。
見下圖：

這種圖就是一個最簡單的機器學習模型，稱之爲決策樹。

當咱們考慮的自變量僅僅有一個時，狀況較爲簡單。

假設把咱們的自變量再添加一個。

好比小Y遲到的部分狀況時是在他開車過來的時候(你可以理解爲他開車水平較臭，或者路較堵)。因而我可以關聯考慮這些信息。

創建一個更復雜的模型，這個模型包括兩個自變量與一個因變量。

再更復雜一點，小Y的遲到跟天氣也有必定的緣由，比例如如下雨的時候，這時候我需要考慮三個自變量。

假設我但願可以預測小Y遲到的詳細時間。我可以把他每次遲到的時間跟雨量的大小以及前面考慮的自變量統一創建一個模型。因而個人模型可以預測值，例如他大概會遲到幾分鐘。這樣可以幫助我更好的規劃我出門的時間。在這種狀況下，決策樹就沒法很是好地支撐了，因爲決策樹僅僅能預測離散值。咱們可以用節2所介紹的線型迴歸方法創建這個模型。

假設我把這些創建模型的過程交給電腦。

比方把所有的自變量和因變量輸入。而後讓計算機幫我生成一個模型，同一時候讓計算機依據我當前的狀況，給出我是否需要遲出門，需要遲幾分鐘的建議。那麼計算機運行這些輔助決策的過程就是機器學習的過程。

機器學習方法是計算機利用已有的數據(經驗)。得出了某種模型(遲到的規律)。並利用此模型預測將來(是否遲到)的一種方法。

經過上面的分析，可以看出機器學習與人類思考的經驗過程是類似的，只是它能考慮不少其它的狀況。運行更加複雜的計算。其實。機器學習的一個主要目的就是把人類思考概括經驗的過程轉化爲計算機經過對數據的處理計算得出模型的過程。通過計算機得出的模型可以以近似於人的方式解決很是多靈活複雜的問題。

如下。我會開始對機器學習的正式介紹，包括定義、範圍。方法、應用等等。都有所包括。

機器學習的定義

從廣義上來講，機器學習是一種可以賦予機器學習的能力以此讓它完畢直接編程沒法完畢的功能的方法。但從實踐的意義上來講，機器學習是一種經過利用數據。訓練出模型，而後使用模型預測的一種方法。

讓咱們詳細看一個樣例。

圖4 房價的樣例

拿國民話題的房子來講。現在我手裏有一棟房子需要售賣。我應該給它標上多大的價格？房子的面積是100平方米。價格是100萬，120萬，仍是140萬？

很是顯然，我但願得到房價與面積的某種規律。那麼我該怎樣得到這個規律？用報紙上的房價平均數據麼？仍是參考別人面積類似的？無論哪一種，彷佛都並不是太靠譜。

我現在但願得到一個合理的，並且可以最大程度的反映面積與房價關係的規律。因而我調查了周邊與我房型類似的一些房子。得到一組數據。這組數據中包括了大大小小房子的面積與價格。假設我能從這組數據中找出面積與價格的規律。那麼我就可以得出房子的價格。

對規律的尋找很是easy，擬合出一條直線。讓它「穿過」所有的點，並且與各個點的距離儘量的小。

經過這條直線，我得到了一個可以最佳反映房價與面積規律的規律。這條直線同一時候也是一個下式所代表的函數：

房價 = 面積 * a + b

上述中的a、b都是直線的參數。得到這些參數之後，我就可以計算出房子的價格。

假設a = 0.75,b = 50。則房價 = 100 * 0.75 + 50 = 125萬。這個結果與我前面所列的100萬，120萬，140萬都不同。

因爲這條直線綜合考慮了大部分的狀況，所以從「統計」意義上來講，這是一個最合理的預測。

在求解過程當中透露出了兩個信息：

1.房價模型是依據擬合的函數類型決定的。
假設是直線，那麼擬合出的就是直線方程。假設是其它類型的線，好比拋物線。那麼擬合出的就是拋物線方程。機器學習有衆多算法，一些強力算法可以擬合出複雜的非線性模型，用來反映一些不是直線所能表達的狀況。

2.假設個人數據越多。個人模型就越可以考慮到越多的狀況，由此對於新狀況的預測效果可能就越好。

這是機器學習界「數據爲王」思想的一個體現。

通常來講(不是絕對)，數據越多，最後機器學習生成的模型預測的效果越好。

經過我擬合直線的過程，咱們可以對機器學習過程作一個完整的回想。

首先，咱們需要在計算機中存儲歷史的數據。

接着。咱們將這些數據經過機器學習算法進行處理，這個過程在機器學習中叫作「訓練」，處理的結果可以被咱們用來對新的數據進行預測。這個結果通常稱之爲「模型」。對新數據的預測過程在機器學習中叫作「預測」。「訓練」與「預測」是機器學習的兩個過程，「模型」則是過程的中間輸出結果。「訓練」產生「模型」，「模型」指導「預測」。

讓咱們把機器學習的過程與人類對歷史經驗概括的過程作個比對。

圖5 機器學習與人類思考的類比

人類在成長、生活過程當中積累了很是多的歷史與經驗。人類按期地對這些經驗進行「概括」。得到了生活的「規律」。

當人類遇到未知的問題或者需要對將來進行「猜測」的時候，人類使用這些「規律」，對未知問題與將來進行「猜測」，從而指導本身的生活和工做。

機器學習中的「訓練」與「預測」過程可以相應到人類的「概括」和「猜測」過程。經過這種相應。咱們可以發現，機器學習的思想並不複雜，僅僅是對人類在生活中學習成長的一個模擬。

因爲機器學習不是基於編程造成的結果。所以它的處理過程不是因果的邏輯，而是經過概括思想得出的相關性結論。

這也可以聯想到人類爲何要學習歷史。歷史其實是人類過往經驗的總結。有句話說得很是好，「歷史每每不同，但歷史老是驚人的類似」。

經過學習歷史，咱們從歷史中概括出人生與國家的規律。從而指導咱們的下一步工做，這是具備莫大價值的。當代一些人忽視了歷史的原本價值，而是把其做爲一種宣揚功績的手段。這實際上是對歷史真實價值的一種誤用。

機器學習的範圍

上文雖說明了機器學習是什麼，但是並無給出機器學習的範圍。

其實，機器學習跟模式識別，統計學習，數據挖掘，計算機視覺，語音識別，天然語言處理等領域有着很是深的聯繫。

從範圍上來講，機器學習跟模式識別，統計學習，數據挖掘是類似的，同一時候，機器學習與其它領域的處理技術的結合，造成了計算機視覺、語音識別、天然語言處理等交叉學科。所以。通常說數據挖掘時。可以等同於說機器學習。同一時候。咱們尋常所說的機器學習應用，應該是通用的，不只僅侷限在結構化數據。還有圖像，音頻等應用。

在這節對機器學習這些相關領域的介紹有助於咱們理清機器學習的應用場景與研究範圍，更好的理解後面的算法與應用層次。

下圖是機器學習所牽扯的一些相關範圍的學科與研究領域。

模式識別

模式識別=機器學習
二者的主要差異在於前者是從工業界發展起來的概念。後者則主要源自計算機學科。

在著名的《Pattern Recognition And Machine Learning》這本書中。Christopher M. Bishop在開頭是這樣說的「模式識別源自工業界，而機器學習來自於計算機學科。

只是。它們中的活動可以被視爲同一個領域的兩個方面，同一時候在過去的10 年間，它們都有了長足的發展」。

數據挖掘

數據挖掘=機器學習+數據庫
這幾年數據挖掘的概念實在是太耳熟能詳。差點兒等同於炒做。但凡說數據挖掘都會吹噓數據挖掘怎樣怎樣，好比從數據中挖出金子，以及將廢棄的數據轉化爲價值等等。但是，我雖然可能會挖出金子，但我也可能挖的是「石頭」啊。

這個說法的意思是。數據挖掘僅僅是一種思考方式，告訴咱們應該嘗試從數據中挖掘出知識，但不是每個數據都能挖掘出金子的，因此不要神話它。

一個系統絕對不會因爲上了一個數據挖掘模塊就變得無所不能(這是IBM最喜歡吹噓的)。偏偏相反，一個擁有數據挖掘思惟的人員纔是關鍵，並且他還必須對數據有深入的認識，這樣纔可能從數據中導出模式指引業務的改善。大部分數據挖掘中的算法是機器學習的算法在數據庫中的優化。

統計學習

統計學習近似等於機器學習
統計學習是個與機器學習高度重疊的學科。因爲機器學習中的大多數方法來自統計學，甚至可以以爲。統計學的發展促進機器學習的繁榮昌盛。好比著名的支持向量機算法，就是源自統計學科。但是在某種程度上二者是有分別的，這個分別在於：統計學習者重點關注的是統計模型的發展與優化，偏數學，而機器學習者更關注的是可以解決問題，偏實踐，所以機器學習研究者會重點研究學習算法在計算機上運行的效率與準確性的提高。

計算機視覺

計算機視覺=圖像處理+機器學習
圖像處理技術用於將圖像處理爲適合進入機器學習模型中的輸入，機器學習則負責從圖像中識別出相關的模式。計算機視覺相關的應用很是的多。好比百度識圖、手寫字符識別、車牌識別等等應用。這個領域是應用前景很是火熱的，同一時候也是研究的熱門方向。

隨着機器學習的新領域深度學習的發展，大大促進了計算機圖像識別的效果。所以將來計算機視覺界的發展前景不可估量。

語音識別

語音識別=語音處理+機器學習
語音識別就是音頻處理技術與機器學習的結合。語音識別技術通常不會單獨使用，一般會結合天然語言處理的相關技術。眼下的相關應用有蘋果的語音助手siri等。

天然語言處理

天然語言處理=文本處理+機器學習
天然語言處理技術主要是讓機器理解人類的語言的一門領域。在天然語言處理技術中，大量使用了編譯原理相關的技術，好比詞法分析，語法分析等等，除此以外，在理解這個層面，則使用了語義理解。機器學習等技術。

做爲惟一由人類自身創造的符號，天然語言處理一直是機器學習界不斷研究的方向。依照百度機器學習專家餘凱的說法「聽與看，說白了就是阿貓和阿狗都會的，而僅僅有語言纔是人類獨有的」。怎樣利用機器學習技術進行天然語言的的深度理解。一直是工業和學術界關注的焦點。

可以看出機器學習在衆多領域的外延和應用。

機器學習技術的發展促使了很是多智能領域的進步，改善着咱們的生活。

機器學習的方法

經過上節的介紹咱們知曉了機器學習的大體範圍，那麼機器學習裏面到底有多少經典的算法呢？在這個部分我會簡要介紹一下機器學習中的經典表明方法。這部分介紹的重點是這些方法內涵的思想。數學與實踐細節不會在這討論。

迴歸算法

在大部分機器學習課程中，迴歸算法都是介紹的第一個算法。
緣由有兩個：
一.迴歸算法比較簡單，介紹它可以讓人平滑地從統計學遷移到機器學習中。

二. 迴歸算法是後面若干強大算法的基石，假設不理解迴歸算法。沒法學習那些強大的算法。迴歸算法有兩個重要的子類：即線性迴歸和邏輯迴歸。

線性迴歸就是咱們前面說過的房價求解問題。怎樣擬合出一條直線最佳匹配我所有的數據？通常使用「最小二乘法」來求解。

「最小二乘法」的思想是這樣的，假設咱們擬合出的直線表明數據的真實值，而觀測到的數據表明擁有偏差的值。爲了儘量減少偏差的影響，需要求解一條直線使所有偏差的平方和最小。最小二乘法將最優問題轉化爲求函數極值問題。函數極值在數學上咱們一般會採用求導數爲0的方法。但這種作法並不適合計算機，可能求解不出來。也可能計算量太大。

計算機科學界專門有一個學科叫「數值計算」，專門用來提高計算機進行各種計算時的準確性和效率問題。

好比，著名的「梯度降低」以及「牛頓法」就是數值計算中的經典算法，也很是適合來處理求解函數極值的問題。梯度降低法是解決迴歸模型中最簡單且有效的方法之中的一個。

從嚴格意義上來講，因爲後文中的神經網絡和推薦算法中都有線性迴歸的因子，所以梯度降低法在後面的算法實現中也有應用。

邏輯迴歸是一種與線性迴歸很是類似的算法。但是，從本質上講。線型迴歸處理的問題類型與邏輯迴歸不一致。線性迴歸處理的是數值問題。也就是最後預測出的結果是數字，好比房價。而邏輯迴歸屬於分類算法，也就是說，邏輯迴歸預測結果是離散的分類，好比推斷這封郵件是不是垃圾郵件，以及用戶是否會點擊此廣告等等。

實現方面的話，邏輯迴歸僅僅是對對線性迴歸的計算結果加上了一個Sigmoid函數，將數值結果轉化爲了0到1之間的機率(Sigmoid函數的圖像通常來講並不直觀。你僅僅需要理解對數值越大，函數越逼近1。數值越小，函數越逼近0)，接着咱們依據這個機率可以作預測。好比機率大於0.5，則這封郵件就是垃圾郵件。或者腫瘤是不是惡性的等等。

從直觀上來講，邏輯迴歸是畫出了一條分類線
見下圖

圖7 邏輯迴歸的直觀解釋
假設咱們有一組腫瘤患者的數據，這些患者的腫瘤中有些是良性的(圖中的藍色點)，有些是惡性的(圖中的紅色點)。

這裏腫瘤的紅藍色可以被稱做數據的「標籤」。

同一時候每個數據包括兩個「特徵」：患者的年齡與腫瘤的大小。

咱們將這兩個特徵與標籤映射到這個二維空間上。造成了我上圖的數據。

當我有一個綠色的點時，我該推斷這個腫瘤是惡性的仍是良性的呢？依據紅藍點咱們訓練出了一個邏輯迴歸模型，也就是圖中的分類線。這時。依據綠點出現在分類線的左側，所以咱們推斷它的標籤應該是紅色，也就是說屬於惡性腫瘤。

邏輯迴歸算法劃出的分類線基本都是線性的(也有劃出非線性分類線的邏輯迴歸。只是那樣的模型在處理數據量較大的時候效率會很是低)，這意味着當兩類之間的界線不是線性時。邏輯迴歸的表達能力就不足。

如下的兩個算法是機器學習界最強大且重要的算法。都可以擬合出非線性的分類線。

神經網絡

神經網絡(也稱之爲人工神經網絡，ANN)算法是80年代機器學習界很是流行的算法。只是在90年代中途衰落。現在。攜着「深度學習」之勢，神經網絡重裝歸來。又一次成爲最強大的機器學習算法之中的一個。

神經網絡的誕生起源於對大腦工做機理的研究。早期生物界學者們使用神經網絡來模擬大腦。機器學習的學者們使用神經網絡進行機器學習的實驗，發現在視覺與語音的識別上效果都至關好。在BP算法(加速神經網絡訓練過程的數值算法)誕生之後，神經網絡的發展進入了一個熱潮。BP算法的發明人之中的一個是前面介紹的機器學習大牛Geoffrey Hinton(圖1中的中間者)。

詳細說來，神經網絡的學習機理是什麼？簡單來講，就是分解與整合。

在著名的Hubel-Wiesel試驗中。學者們研究貓的視覺分析機理是這種。

圖8 Hubel-Wiesel試驗與大腦視覺機理
比方說。一個正方形，分解爲四個折線進入視覺處理的下一層中。四個神經元分別處理一個折線。每個折線再繼續被分解爲兩條直線，每條直線再被分解爲黑白兩個面。因而，一個複雜的圖像變成了大量的細節進入神經元。神經元處理之後再進行整合，最後得出了看到的是正方形的結論。這就是大腦視覺識別的機理，也是神經網絡工做的機理。

讓咱們看一個簡單的神經網絡的邏輯架構。在這個網絡中。分紅輸入層，隱藏層。和輸出層。輸入層負責接收信號，隱藏層負責對數據的分解與處理，最後的結果被整合到輸出層。每層中的一個圓表明一個處理單元。可以以爲是模擬了一個神經元，若干個處理單元組成了一個層，若干個層再組成了一個網絡，也就是」神經網絡」。

圖9 神經網絡的邏輯架構
在神經網絡中，每個處理單元其實就是一個邏輯迴歸模型，邏輯迴歸模型接收上層的輸入，把模型的預測結果做爲輸出傳輸到下一個層次。經過這種過程。神經網絡可以完畢很是複雜的非線性分類。

下圖會演示神經網絡在圖像識別領域的一個著名應用，這個程序叫作LeNet，是一個基於多個隱層構建的神經網絡。

經過LeNet可以識別多種手寫數字，並且達到很是高的識別精度與擁有較好的魯棒性。

圖10 LeNet的效果展現
右下方的方形中顯示的是輸入計算機的圖像，方形上方的紅色字樣「answer」後面顯示的是計算機的輸出。左邊的三條豎直的圖像列顯示的是神經網絡中三個隱藏層的輸出，可以看出。隨着層次的不斷深刻，越深的層次處理的細節越低，好比層3基本處理的都已是線的細節了。

LeNet的發明人就是前文介紹過的機器學習的大牛Yann LeCun(圖1右者)。

進入90年代，神經網絡的發展進入了一個瓶頸期。

其主要緣由是雖然有BP算法的加速。神經網絡的訓練過程仍然很是困難。

所以90年代後期支持向量機(SVM)算法代替了神經網絡的地位。

SVM（支持向量機）

支持向量機算法是誕生於統計學習界，同一時候在機器學習界大放光彩的經典算法。

支持向量機算法從某種意義上來講是邏輯迴歸算法的強化：經過給予邏輯迴歸算法更嚴格的優化條件，支持向量機算法可以得到比邏輯迴歸更好的分類界線。但是假設沒有某類函數技術，則支持向量機算法最多算是一種更好的線性分類技術。

但是，經過跟高斯「核」的結合。支持向量機可以表達出很是複雜的分類界線，從而達成很是好的的分類效果。

「核」其實就是一種特殊的函數，最典型的特徵就是可以將低維的空間映射到高維的空間。
比例如如下圖所看到的：

圖11 支持向量機圖例

咱們怎樣在二維平面劃分出一個圓形的分類界線？在二維平面可能會很是困難，但是經過「核」可以將二維空間映射到三維空間，而後使用一個線性平面就可以達成類似效果。也就是說，二維平面劃分出的非線性分類界線可以等價於三維平面的線性分類界線。因而，咱們可以經過在三維空間中進行簡單的線性劃分就可以達到在二維平面中的非線性劃分效果。

圖12 三維空間的分割
支持向量機是一種數學成分很是濃的機器學習算法（相對的，神經網絡則有生物科學成分）。在算法的核心步驟中，有一步證實，即將數據從低維映射到高維不會帶來最後計算複雜性的提高。

因而。經過支持向量機算法，既可以保持計算效率，又可以得到很是好的分類效果。所以支持向量機在90年代後期一直佔領着機器學習中最核心的地位，基本代替了神經網絡算法。直到現在神經網絡藉着深度學習又一次興起，二者之間才又發生了微妙的平衡轉變。

聚類算法

前面的算法中的一個顯著特徵就是個人訓練數據中包括了標籤，訓練出的模型可以對其它未知數據預測標籤。

在如下的算法中，訓練數據都是不含標籤的，而算法的目的則是經過訓練，猜測出這些數據的標籤。這類算法有一個統稱。即無監督算法(前面有標籤的數據的算法則是有監督算法)。無監督算法中最典型的表明就是聚類算法。

讓咱們仍是拿一個二維的數據來講，某一個數據包括兩個特徵。我但願經過聚類算法，給他們中不一樣的種類打上標籤，我該怎麼作呢？簡單來講，聚類算法就是計算種羣中的距離。依據距離的遠近將數據劃分爲多個族羣。

聚類算法中最典型的表明就是K-Means算法。

降維算法

降維算法也是一種無監督學習算法，其主要特徵是將數據從高維下降到低維層次。在這裏。維度其實表示的是數據的特徵量的大小，好比，房價包括房子的長、寬、面積與房間數量四個特徵。也就是維度爲4維的數據。可以看出來，長與寬其實與面積表示的信息重疊了。好比面積=長 × 寬。

經過降維算法咱們就可以去除冗餘信息，將特徵下降爲面積與房間數量兩個特徵，即從4維的數據壓縮到2維。因而咱們將數據從高維下降到低維，不只利於表示，同一時候在計算上也能帶來加速。

剛纔說的降維過程當中下降的維度屬於肉眼可視的層次，同一時候壓縮也不會帶來信息的損失(因爲信息冗餘了)。假設肉眼不可視。或者沒有冗餘的特徵，降維算法也能工做，只是這樣會帶來一些信息的損失。但是，降維算法可以從數學上證實，從高維壓縮到的低維中最大程度地保留了數據的信息。所以，使用降維算法仍然有很是多的優勢。

降維算法的主要做用是壓縮數據與提高機器學習其它算法的效率。

經過降維算法，可以將具備幾千個特徵的數據壓縮至若干個特徵。另外，降維算法的還有一個優勢是數據的可視化，好比將5維的數據壓縮至2維，而後可以用二維平面來可視。

降維算法的主要表明是PCA算法(即主成分分析算法)。

其它

除了以上算法以外，機器學習界還有其它的如高斯判別，樸素貝葉斯。決策樹等等算法。但是上面列的六個算法是使用最多，影響最廣。種類最全的典型。機器學習界的一個特點就是算法衆多。發展百花齊放。

如下作一個總結。依照訓練的數據有無標籤，可以將上面算法分爲監督學習算法和無監督學習算法。但推薦算法較爲特殊，既不屬於監督學習，也不屬於非監督學習，是單獨的一類。

監督學習算法：線性迴歸。邏輯迴歸，神經網絡，SVM

無監督學習算法：聚類算法。降維算法

特殊算法：推薦算法

除了這些算法之外，有一些算法的名字在機器學習領域中也經常出現。

但他們自己並不算是一個機器學習算法，而是爲了解決某個子問題而誕生的。

你可以理解他們爲以上算法的子算法，用於大幅度提升訓練過程。當中的表明有：梯度降低法，主要運用在線型迴歸，邏輯迴歸。神經網絡，推薦算法中；牛頓法，主要運用在線型迴歸中；BP算法，主要運用在神經網絡中。SMO算法，主要運用在SVM中。

機器學習的應用–大數據

說完機器學習的方法。如下要談一談機器學習的應用了。無疑。在2010年曾經，機器學習的應用在某些特定領域發揮了巨大的做用。如車牌識別。網絡攻擊防範，手寫字符識別等等。但是。從2010年之後，隨着大數據概念的興起，機器學習大量的應用都與大數據高度耦合。差點兒可以以爲大數據是機器學習應用的最佳場景。

譬如，但凡你能找到的介紹大數據魔力的文章，都會說大數據怎樣準確準確預測到了某些事。好比經典的Google利用大數據預測了H1N1在美國某小鎮的爆發。

圖13 Google成功預測H1N1
百度預測2014年世界盃，從淘汰賽到決賽所有預測正確。

圖14 百度世界盃成功預測了所有比賽結果

這些實在太奇妙了，那麼究竟是什麼緣由致使大數據具備這些魔力的呢？簡單來講，就是機器學習技術。正是基於機器學習技術的應用，數據才幹發揮其魔力。

大數據的核心是利用數據的價值，機器學習是利用數據價值的關鍵技術，對於大數據而言，機器學習是不可或缺的。相反，對於機器學習而言，越多的數據會越可能提高模型的精確性。同一時候。複雜的機器學習算法的計算時間也迫切需要分佈式計算與內存計算這種關鍵技術。

所以，機器學習的興旺也離不開大數據的幫助。大數據與機器學習二者是互相促進，相依相存的關係。

機器學習與大數據緊密聯繫。但是，必須清醒的認識到，大數據並不等同於機器學習。同理，機器學習也不等同於大數據。大數據中包括有分佈式計算，內存數據庫，多維分析等等多種技術。單從分析方法來看，大數據也包括如下四種分析方法：

1.大數據，小分析：即數據倉庫領域的OLAP分析思路。也就是多維分析思想。
2.大數據。大分析：這個表明的就是數據挖掘與機器學習分析法。
3.流式分析：這個主要指的是事件驅動架構。

4.查詢分析：經典表明是NoSQL數據庫。

也就是說，機器學習僅僅是大數據分析中的一種而已。雖然機器學習的一些結果具備很是大的魔力。在某種場合下是大數據價值最好的說明。但這並不表明機器學習是大數據下的惟一的分析方法。

機器學習與大數據的結合產生了巨大的價值。基於機器學習技術的發展。數據可以「預測」。

對人類而言，積累的經驗越豐富。閱歷也普遍，對將來的推斷越準確。

好比常說的「經驗豐富」的人比「初出茅廬」的小夥子更有工做上的優點。就在於經驗豐富的人得到的規律比他人更準確。而在機器學習領域，依據著名的一個實驗，有效的證明了機器學習界一個理論：即機器學習模型的數據越多，機器學習的預測的效率就越好。

見下圖：

圖15 機器學習準確率與數據的關係

經過這張圖可以看出，各類不一樣算法在輸入的數據量達到必定級數後。都有相近的高精確度。

因而誕生了機器學習界的名言：成功的機器學習應用不是擁有最好的算法。而是擁有最多的數據！

在大數據的時代。有好多優點促使機器學習可以應用更普遍。

好比隨着物聯網和移動設備的發展，咱們擁有的數據愈來愈多，種類也包括圖片、文本、視頻等非結構化數據。這使得機器學習模型可以得到愈來愈多的數據。同一時候大數據技術中的分佈式計算Map-Reduce使得機器學習的速度愈來愈快，可以更方便的使用。

種種優點使得在大數據時代。機器學習的優點可以獲得最佳的發揮。

機器學習的子類–深度學習

近來，機器學習的發展產生了一個新的方向，即「深度學習」。

雖然深度學習這四字聽起來頗爲高大上，但其理念卻很是easy，就是傳統的神經網絡發展到了多隱藏層的狀況。

在上文介紹過。自從90年代之後，神經網絡已經消寂了一段時間。但是BP算法的發明人Geoffrey Hinton一直沒有放棄對神經網絡的研究。因爲神經網絡在隱藏層擴大到兩個以上，其訓練速度就會很是慢。所以有用性一直低於支持向量機。2006 年，Geoffrey Hinton在科學雜誌《Science》上發表了一篇文章，論證了兩個觀點：

1.多隱層的神經網絡具備優異的特徵學習能力，學習獲得的特徵對數據有更本質的刻畫。從而有利於可視化或分類；

2.深度神經網絡在訓練上的難度。可以經過「逐層初始化」來有效克服。

經過這種發現，不只攻克了神經網絡在計算上的難度，同一時候也說明了深層神經網絡在學習上的優異性。今後。神經網絡又一次成爲了機器學習界中的主流強大學習技術。同一時候，具備多個隱藏層的神經網絡被稱爲深度神經網絡，基於深度神經網絡的學習研究稱之爲深度學習。

因爲深度學習的重要性質。在各方面都取得極大的關注，依照時間軸排序，有如下四個標誌性事件值得一說：

2012年6月，《紐約時報》披露了Google Brain項目。這個項目是由Andrew Ng和Map-Reduce發明人Jeff Dean共同主導。用16000個CPU Core的並行計算平臺訓練一種稱爲「深層神經網絡」的機器學習模型，在語音識別和圖像識別等領域得到了巨大的成功。Andrew Ng就是文章開始所介紹的機器學習的大牛(圖1中右者)。

2012年11月，微軟在中國天津的一次活動上公開演示了一個全本身主動的同聲傳譯系統。講演者用英文演講。後臺的計算機一鼓作氣本身主動完畢語音識別、英中機器翻譯，以及中文語音合成，效果很是流暢。當中支撐的關鍵技術是深度學習；

2013年1月。在百度的年會上，創始人兼CEO李彥宏高調宣佈要成立百度研究院。當中第一個重點方向就是深度學習，併爲此而成立深度學習研究院(IDL)。

圖17 深度學習的發展熱潮

文章開頭所列的三位機器學習的大牛，不只都是機器學習界的專家，更是深度學習研究領域的先驅。所以，使他們擔任各個大型互聯網公司技術掌舵者的緣由不只在於他們的技術實力，更在於他們研究的領域是前景無限的深度學習技術。

眼下業界不少的圖像識別技術與語音識別技術的進步都源於深度學習的發展，除了本文開頭所提的Cortana等語音助手，還包括一些圖像識別應用。當中典型的表明就是下圖的百度識圖功能。

圖18 百度識圖

深度學習屬於機器學習的子類。基於深度學習的發展極大的促進了機器學習的地位提升，更進一步地。推進了業界對機器學習父類人工智能夢想的再次重視。

機器學習的父類–人工智能

人工智能是機器學習的父類。深度學習則是機器學習的子類。假設把三者的關係用圖來代表的話。則是下圖：

圖19 深度學習、機器學習、人工智能三者關係

毫無疑問。人工智能(AI)是人類所能想象的科技界最突破性的發明了，某種意義上來講，人工智能就像遊戲最終幻想的名字同樣。是人類對於科技界的最終夢想。

從50年代提出人工智能的理念之後，科技界，產業界不斷在探索，研究。

這段時間各類小說、電影都在以各類方式展示對於人工智能的想象。人類可以發明類似於人類的機器，這是多麼偉大的一種理念！

但其實，自從50年代之後，人工智能的發展就磕磕碰碰。未有見到足夠震撼的科學技術的進步。

總結起來，人工智能的發展經歷了例如如下若干階段。從早期的邏輯推理，到中期的專家系統，這些科研進步確實使咱們離機器的智能有點接近了，但還有一大段距離。

直到機器學習誕生之後。人工智能界感受最終找對了方向。基於機器學習的圖像識別和語音識別在某些垂直領域達到了跟人相媲美的程度。

機器學習令人類第一次如此接近人工智能的夢想。

其實。假設咱們把人工智能相關的技術以及其它業界的技術作一個類比，就可以發現機器學習在人工智能中的重要地位不是沒有理由的。

人類差異於其它物體，植物，動物的最主要差異。做者以爲是「智慧」。而智慧的最佳體現是什麼？

是計算能力麼，應該不是，心算速度快的人咱們通常稱之爲天才。

是反應能力麼，也不是。反應快的人咱們稱之爲靈敏。
是記憶能力麼，也不是，記憶好的人咱們通常稱之爲過目不忘。
是推理能力麼，這種人我或許會稱他智力很是高。類似「福爾摩斯」，但不會稱他擁有智慧。

是知識能力麼，這種人咱們稱之爲博聞廣，也不會稱他擁有智慧。

想一想看咱們通常形容誰有大智慧？聖人，諸如莊子，老子等。智慧是對生活的感悟。是對人生的積澱與思考，這與咱們機器學習的思想何其類似？經過經驗獲取規律，指導人生與將來。

沒有經驗就沒有智慧。

圖20 機器學習與智慧

那麼，從計算機來看。以上的種種能力都有種種技術去應對。

好比計算能力咱們有分佈式計算，反應能力咱們有事件驅動架構，檢索能力咱們有搜索引擎，知識存儲能力咱們有數據倉庫，邏輯推理能力咱們有專家系統，但是。惟有相應智慧中最顯著特徵的概括與感悟能力，僅僅有機器學習與之相應。這也是機器學習能力最能表徵智慧的根本緣由。

讓咱們再看一下機器人的製造。在咱們具備了強大的計算，海量的存儲，高速的檢索，迅速的反應，優秀的邏輯推理後咱們假設再配合上一個強大的智慧大腦，一個真正意義上的人工智能或許就會誕生，這也是爲何說在機器學習高速發展的現在，人工智能可能再也不是夢想的緣由。

人工智能的發展可能不只取決於機器學習，更取決於前面所介紹的深度學習，深度學習技術因爲深度模擬了人類大腦的構成，在視覺識別與語音識別上顯著性的突破了原有機器學習技術的界限，所以極有多是真正實現人工智能夢想的關鍵技術。

無論是谷歌大腦仍是百度大腦，都是經過海量層次的深度學習網絡所構成的。或許藉助於深度學習技術。在不遠的未來，一個具備人類智能的計算機真的有可能實現。

最後再說一下題外話，因爲人工智能借助於深度學習技術的高速發展。已經在某些地方引發了傳統技術界達人的擔心。

真實世界的「鋼鐵俠」，特斯拉CEO 馬斯克就是當中之中的一個。近期馬斯克在參加MIT討論會時，就表達了對於人工智能的擔心。

「人工智能的研究就類似於召喚惡魔。咱們必須在某些地方增強注意。」

圖21 馬斯克與人工智能

雖然馬斯克的操心有些危言聳聽。但是馬斯克的推理不無道理。「假設人工智能想要消除垃圾郵件的話，可能它最後的決定就是消滅人類。」馬斯克以爲預防此類現象的方法是引入政府的監管。在這裏做者的觀點與馬斯克類似，在人工智能誕生之初就給其加上若干規則限制可能有效。也就是不該該使用單純的機器學習。而應該是機器學習與規則引擎等系統的綜合可以較好的解決這類問題。因爲假設學習沒有限制，極有可能進入某個誤區，必需要加上某些引導。正如人類社會中，法律就是一個最好的規則，殺人者死就是對於人類在探索提升生產力時不可逾越的界限。

在這裏，必須提一下這裏的規則與機器學習引出的規律的不一樣，規律不是一個嚴格意義的準則，其表明的不少其它是機率上的指導，而規則則是神聖不可侵犯，不可改動的。規律可以調整。但規則是不能改變的。

有效的結合規律與規則的特色。可以引導出一個合理的。可控的學習型人工智能。

機器學習的思考–計算機的潛意識

最後。做者想談一談關於機器學習的一些思考。主要是做者在平常生活總結出來的一些感悟。

回想一下我在節1裏所說的故事，我把小Y過往跟我相約的經歷作了一個羅列。但是這種羅列以往所有經歷的方法僅僅有少數人會這麼作，大部分的人採用的是更直接的方法，即利用直覺。那麼，直覺是什麼？其實直覺也是你在潛意識狀態下思考經驗後得出的規律。就像你經過機器學習算法。獲得了一個模型，那麼你下次僅僅要直接使用便可了。那麼這個規律你是何時思考的？多是在你無心識的狀況下，好比睡覺。走路等狀況。這種時候。大腦其實也在默默地作一些你察覺不到的工做。

這種直覺與潛意識。我把它與還有一種人類思考經驗的方式作了區分。假設一我的勤于思考。好比他會天天作一個小結，譬如「吾日三省吾身」。或者他經常與同伴討論近期工做的得失，那麼他這種訓練模型的方式是直接的，明意識的思考與概括。這種效果很是好。記憶性強，並且更能得出有效反應現實的規律。但是大部分的人可能很是少作這種總結，那麼他們得出生活中規律的方法使用的就是潛意識法。

舉一個做者本人關於潛意識的樣例。

做者本人曾經沒開過車，近期一段時間買了車後，每天開車上班。我天天都走固定的路線。有趣的是，在一開始的幾天，我很是緊張的注意着前方的路況。而現在我已經在無心識中就把車開到了目標。這個過程當中個人眼睛是注視着前方的，個人大腦是沒有思考，但是我手握着的方向盤會本身主動的調整方向。也就是說。隨着我開車次數的增多，我已經把我開車的動做交給了潛意識。

這是很是有趣的一件事。

在這段過程當中，個人大腦將前方路況的圖像記錄了下來，同一時候大腦也記憶了我轉動方向盤的動做。通過大腦本身的潛意識思考，最後生成的潛意識可以直接依據前方的圖像調整我手的動做。假設咱們將前方的錄像交給計算機，而後讓計算機記錄與圖像相應的駕駛員的動做。通過一段時間的學習，計算機生成的機器學習模型就可以進行本身主動駕駛了。這很是奇妙，不是麼。

其實包括Google、特斯拉在內的本身主動駕駛汽車技術的原理就是這樣。

除了本身主動駕駛汽車之外，潛意識的思想還可以擴展到人的交際。譬如說服別人，一個最佳的方法就是給他展現一些信息。而後讓他本身去概括得出咱們想要的結論。

這就比如在闡述一個觀點時。用一個事實，或者一個故事。比大段的道理要好很是多。從古到今，但凡優秀的說客，無不採用的是這種方法。

春秋戰國時期。各國合縱連橫。經常有各類說客去跟一國之君交流，直接告訴君主該作什麼，無異於自尋死路，但是跟君主講故事，經過這些故事讓君主恍然大悟，就是一種正確的過程。這裏面有不少傑出的表明，如墨子。蘇秦等等。

基本上所有的交流過程，使用故事說明的效果都要遠勝於闡述道義之類的效果好很是多。

爲何用故事的方法比道理或者其它的方法好很是多，這是因爲在人成長的過程，通過本身的思考，已經造成了很是多規律與潛意識。

假設你告訴的規律與對方的不相符。很是有可能出於保護。他們會本能的拒絕你的新規律，但是假設你跟他講一個故事，傳遞一些信息，輸送一些數據給他，他會思考並自我改變。他的思考過程實際上就是機器學習的過程。他把新的數據歸入到他的舊有的記憶與數據中。通過又一次訓練。假設你給出的數據的信息量很是大，大到調整了他的模型，那麼他就會依照你但願的規律去作事。有的時候。他會本能的拒絕運行這個思考過程，但是數據一旦輸入，無論他但願與否。他的大腦都會在潛意識狀態下思考，並且可能改變他的見解。

假設計算機也擁有潛意識(正如本博客的名稱同樣)，那麼會怎麼樣？譬如讓計算機在工做的過程當中，逐漸產生了自身的潛意識，因而甚至可以在你不需要告訴它作什麼時它就會完畢那件事。

這是個很是有意思的設想，這裏留給各位讀者去發散思考吧。

總結

本文首先介紹了互聯網界與機器學習大牛結合的趨勢，以及使用機器學習的相關應用，接着以一個「等人故事」展開對機器學習的介紹。

介紹中首先是機器學習的概念與定義，而後是機器學習的相關學科，機器學習中包括的各種學習算法。接着介紹機器學習與大數據的關係。機器學習的新子類深度學習，最後探討了一下機器學習與人工智能發展的聯繫以及機器學習與潛意識的關聯。通過本文的介紹。相信你們對機器學習技術有必定的瞭解。好比機器學習是什麼。它的內核思想是什麼(即統計和概括)。經過了解機器學習與人類思考的近似聯繫可以知曉機器學習爲何具備智慧能力的緣由等等。

其次。本文漫談了機器學習與外延學科的關係。機器學習與大數據相互促進相得益彰的聯繫。機器學習界最新的深度學習的迅猛發展。以及對於人類基於機器學習開發智能機器人的一種展望與思考。最後做者簡單談了一點關於讓計算機擁有潛意識的設想。

機器學習是眼下業界最爲Amazing與火熱的一項技術。從網上的每一次淘寶的購買東西，到本身主動駕駛汽車技術。以及網絡攻擊抵禦系統等等，都有機器學習的因子在內。同一時候機器學習也是最有可能令人類完畢AI dream的一項技術，各類人工智能眼下的應用。如微軟小冰聊天機器人，到計算機視覺技術的進步，都有機器學習努力的成分。

做爲一名當代的計算機領域的開發或管理人員，以及身處這個世界。使用者IT技術帶來便利的人們，最好都應該瞭解一些機器學習的相關知識與概念，因爲這可以幫你更好的理解爲你帶來莫大便利技術的背後原理，以及讓你更好的理解當代科技的進程。

後記

這篇文檔花了做者兩個月的時間。最終在2014年的最後一天的前一天基本完畢。經過這篇文章，做者但願對機器學習在國內的普及作一點貢獻。同一時候也是做者本人本身對於所學機器學習知識的一個融匯貫通，整體概括的提升過程。

做者把這麼多的知識通過本身的大腦思考。訓練出了一個模型，造成了這篇文檔。可以說這也是一種機器學習的過程吧(笑)。

做者所在的行業會接觸到大量的數據，所以對於數據的處理和分析是尋常很是重要的工做，機器學習課程的思想和理念對於做者平常的工做指引做用極大，幾乎致使了做者對於數據價值的又一次認識。

想一想半年前，做者還對機器學習似懂非懂。現在也可以算是一個機器學習的Expert了(笑)。

但做者始終以爲，機器學習的真正應用不是經過概念或者思想的方式，而是經過實踐。僅僅有當把機器學習技術真正應用時，纔可算是對機器學習的理解進入了一個層次。

正所謂再「陽春白雪」的技術，也必須落到「下里巴人」的場景下運用。

眼下有一種風氣。國內外研究機器學習的某些學者。有一種高貴的逼格，以爲本身的研究是普通人沒法理解的。但是這種理念是根本錯誤的。沒有在真正實際的地方發揮做用，憑什麼證實你的研究有所價值呢？做者以爲必須將高大上的技術用在改變普通人的生活上。才能發揮其根本的價值。一些簡單的場景。偏偏是實踐機器學習技術的最好地方。