(轉帖)Machine Learning：一部氣勢恢宏的人工智能發展史

時間 2019-12-07

標籤 machine learning 一部氣勢恢宏人工智能發展史简体版

原文原文鏈接

(原文)http://m.zol.com.cn/article/6040334.htmlphp

2016-09-12 10:06 雷鋒網收藏搶沙發html

雷鋒網按：本文做者DataCastle數據城堡，主要介紹了機器學習的從產生，發展，低潮和全盛的歷史。算法

AlphaGo的勝利，無人駕駛的成功，模式識別的突破性進展，人工智能的的飛速發展一次又一次地挑動着咱們的神經。做爲人工智能的核心，機器學習也在人工智能的大步發展中備受矚目，光輝無限。數據庫

現在，機器學習的應用已遍佈人工智能的各個分支，如專家系統、自動推理、天然語言理解、模式識別、計算機視覺、智能機器人等領域。編程

但也許咱們未曾想到的事機器學習乃至人工智能的起源，是對人自己的意識、自我、心靈等哲學問題的探索。而在發展的過程當中，更是融合了統計學、神經科學、信息論、控制論、計算複雜性理論等學科的知識。api

總的來講，機器學習的發展是整我的工智能發展史上頗爲重要的一個分支。其中故事一波三折，使人驚訝歎服，頗爲蕩氣迴腸。網絡

其中穿插了無數牛人的故事，在下面的介紹中，你將會看到如下神級人物的均有出場，咱們順着ML的進展時間軸娓娓道來：架構

|基礎奠基的熱烈時期

20世紀50年代初到60年代中葉框架

Hebb於1949年基於神經心理學的學習機制開啓機器學習的第一步。此後被稱爲Hebb學習規則。Hebb學習規則是一個無監督學習規則，這種學習的結果是使網絡可以提取訓練集的統計特性，從而把輸入信息按照它們的類似性程度劃分爲若干類。這一點與人類觀察和認識世界的過程很是吻合，人類觀察和認識世界在至關程度上就是在根據事物的統計特徵進行分類。機器學習

從上面的公式能夠看出，權值調整量與輸入輸出的乘積成正比，顯然常常出現的模式將對權向量有較大的影響。在這種狀況下，Hebb學習規則需預先定置權飽和值，以防止輸入和輸出正負始終一致時出現權值無約束增加。

Hebb學習規則與「條件反射」機理一致，而且已經獲得了神經細胞學說的證明。好比巴甫洛夫的條件反射實驗：每次給狗餵食前都先響鈴，時間一長，狗就會將鈴聲和食物聯繫起來。之後若是響鈴可是不給食物，狗也會流口水。

1950年，阿蘭·圖靈創造了圖靈測試來斷定計算機是否智能。圖靈測試認爲，若是一臺機器可以與人類展開對話（經過電傳設備）而不能被辨別出其機器身份，那麼稱這臺機器具備智能。這一簡化使得圖靈可以使人信服地說明「思考的機器」是可能的。

2014年6月8日，一臺計算機（計算機尤金·古斯特曼是一個聊天機器人，一個電腦程序）成功讓人類相信它是一個13歲的男孩，成爲有史以來首臺經過圖靈測試的計算機。這被認爲是人工智能發展的一個里程碑事件。

1952，IBM科學家亞瑟·塞繆爾開發了一個跳棋程序。該程序可以經過觀察當前位置，並學習一個隱含的模型，從而爲後續動做提供更好的指導。塞繆爾發現，伴隨着該遊戲程序運行時間的增長，其能夠實現愈來愈好的後續指導。

經過這個程序，塞繆爾駁倒了普羅維登斯提出的機器沒法超越人類，像人類同樣寫代碼和學習的模式。他創造了「機器學習」，並將它定義爲「能夠提供計算機能力而無需顯式編程的研究領域」。

1957年，羅森·布拉特基於神經感知科學背景提出了第二模型，很是的相似於今天的機器學習模型。這在當時是一個很是使人興奮的發現，它比Hebb的想法更適用。基於這個模型羅森·布拉特設計出了第一個計算機神經網絡——感知機（the perceptron），它模擬了人腦的運做方式。

3年後，維德羅首次使用Delta學習規則用於感知器的訓練步驟。這種方法後來被稱爲最小二乘方法。這二者的結合創造了一個良好的線性分類器。

1967年，最近鄰算法（The nearest neighbor algorithm）出現，由此計算機能夠進行簡單的模式識別。kNN算法的核心思想是若是一個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別，並具備這個類別上樣本的特性。該方法在肯定分類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。

kNN的優勢在於易於理解和實現，無需估計參數，無需訓練，適合對稀有事件進行分類，特別適合於多分類問題(multi-modal,對象具備多個類別標籤)，甚至比SVM的表現要好。

Han等人於2002年嘗試利用貪心法，針對文件分類實作可調整權重的k最近鄰居法WAkNN (weighted adjusted k nearest neighbor)，以促進分類效果；而Li等人於2004年提出因爲不一樣分類的文件自己有數量上有差別，所以也應該依照訓練集合中各類分類的文件數量，選取不一樣數目的最近鄰居，來參與分類。

1969年馬文·明斯基將感知器興奮推到最高頂峯。他提出了著名的XOR問題和感知器數據線性不可分的情形。

明斯基還把人工智能技術和機器人技術結合起來，開發出了世界上最先的可以模擬人活動的機器人Robot C，使機器人技術躍上了一個新臺階。明斯基的另外一個大舉措是建立了著名的「思惟機公司」（Thinking Machines，Inc．），開發具備智能的計算機。

此後，神經網絡的研究將處於休眠狀態，直到上世紀80年代。儘管BP神經的想法由林納因馬在1970年提出，並將其稱爲「自動分化反向模式」，可是並未引發足夠的關注。

|停滯不前的冷靜時期

20世紀60年代中葉到70年代末

從60年代中到70年代末，機器學習的發展步伐幾乎處於停滯狀態。雖然這個時期溫斯頓(Winston)的結構學習系統和海斯·羅思(Hayes Roth)等的基於邏輯的概括學習系統取得較大的進展，但只能學習單一律念，並且未能投入實際應用。此外，神經網絡學習機因理論缺陷未能達到預期效果而轉入低潮。

這個時期的研究目標是模擬人類的概念學習過程，並採用邏輯結構或圖結構做爲機器內部描述。機器可以採用符號來描述概念(符號概念獲取)，並提出關於學習概念的各類假設。

事實上，這個時期整個AI領域都遭遇了瓶頸。當時的計算機有限的內存和處理速度不足以解決任何實際的AI問題。要求程序對這個世界具備兒童水平的認識，研究者們很快發現這個要求過高了：1970年沒人可以作出如此巨大的數據庫，也沒人知道一個程序怎樣才能學到如此豐富的信息。

|重拾但願的復興時期

20世紀70年代末到80年代中葉

從70年代末開始，人們從學習單個概念擴展到學習多個概念，探索不一樣的學習策略和各類學習方法。這個時期，機器學習在大量的時間應用中回到人們的視線，又慢慢復甦。

1980年，在美國的卡內基梅隆大學(CMU)召開了第一屆機器學習國際研討會，標誌着機器學習研究已在全世界興起。此後，機器概括學習進入應用。

通過一些挫折後，多層感知器(MLP)由偉博斯在1981年的神經網絡反向傳播(BP)算法中具體提出。固然BP仍然是今天神經網絡架構的關鍵因素。有了這些新思想，神經網絡的研究又加快了。

1985 -1986神經網絡研究人員（魯梅爾哈特，辛頓，威廉姆斯-赫，尼爾森）前後提出了MLP與BP訓練相結合的理念。

一個很是著名的ML算法由昆蘭在1986年提出，咱們稱之爲決策樹算法，更準確的說是ID3算法。這是另外一個主流機器學習的火花點。此外，與黑盒神經網絡模型大相徑庭的是，決策樹ID3算法也被做爲一個軟件，經過使用簡單的規則和清晰的參考能夠找到更多的現實生活中的使用狀況。

《機器學習》中打網球的天氣分類決策

決策樹是一個預測模型，他表明的是對象屬性與對象值之間的一種映射關係。樹中每一個節點表示某個對象，而每一個分叉路徑則表明的某個可能的屬性值，而每一個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的對象的值。決策樹僅有單一輸出，若欲有複數輸出，能夠創建獨立的決策樹以處理不一樣輸出。數據挖掘中決策樹是一種常常要用到的技術，能夠用於分析數據，一樣也能夠用來做預測。

|現代機器學習的成型時期

20世紀90年初到21世紀初

1990年, Schapire最早構造出一種多項式級的算法 ,對該問題作了確定的證實 ,這就是最初的 Boosting算法。一年後 ,Freund提出了一種效率更高的Boosting算法。可是,這兩種算法存在共同的實踐上的缺陷 ,那就是都要求事先知道弱學習算法學習正確的下限。

1995年 , Freund和schapire改進了Boosting算法 ,提出了 AdaBoost (Adap tive Boosting)算法,該算法效率和 Freund於 1991年提出的 Boosting算法幾乎相同 ,但不須要任何關於弱學習器的先驗知識 ,於是更容易應用到實際問題當中。

Boosting方法是一種用來提升弱分類算法準確度的方法,這種方法經過構造一個預測函數系列,而後以必定的方式將他們組合成一個預測函數。他是一種框架算法,主要是經過對樣本集的操做得到樣本子集,而後用弱分類算法在樣本子集上訓練生成一系列的基分類器。

同年，機器學習領域中一個最重要的突破，支持向量(support vector machines, SVM )，由瓦普尼克和科爾特斯在大量理論和實證的條件下年提出。今後將機器學習社區分爲神經網絡社區和支持向量機社區。

然而兩個社區之間的競爭並不那麼容易，神經網絡要落後SVM核化後的版本將近2000s 。支持向量機在之前許多神經網絡模型不能解決的任務中取得了良好的效果。此外，支持向量機可以利用全部的先驗知識作凸優化選擇，產生準確的理論和核模型。所以，它能夠對不一樣的學科產生大的推進，產生很是高效的理論和實踐改善。

支撐向量機 , Boosting，最大熵方法(好比logistic regression, LR)等。這些模型的結構基本上能夠當作帶有一層隱層節點(如SVM, Boosting)，或沒有隱層節點(如LR)。這些模型在不管是理論分析仍是應用都得到了巨大的成功。

另外一個集成決策樹模型由佈雷曼博士在2001年提出，它是由一個隨機子集的實例組成，而且每一個節點都是從一系列隨機子集中選擇。因爲它的這個性質，被稱爲隨機森林(RF)，隨機森林也在理論和經驗上證實了對過擬合的抵抗性。

甚至連AdaBoost算法在數據過擬合和離羣實例中都表現出了弱點，而隨機森林是針對這些警告更穩健的模型。隨機森林在許多不一樣的任務，像DataCastle、Kaggle等比賽等都表現出了成功的一面。

|大放光芒的蓬勃發展時期

21世紀初至今

在機器學習發展分爲兩個部分，淺層學習（Shallow Learning）和深度學習（Deep Learning）。淺層學習起源上世紀20年代人工神經網絡的反向傳播算法（Back-propagation）的發明，使得基於統計的機器學習算法大行其道，雖然這時候的人工神經網絡算法也被稱爲多層感知機（Multiple layer Perception），但因爲多層網絡訓練困難，一般都是隻有一層隱含層的淺層模型。

神經網絡研究領域領軍者Hinton在2006年提出了神經網絡Deep Learning算法，使神經網絡的能力大大提升，向支持向量機發出挑戰。 2006年，機器學習領域的泰斗Hinton和他的學生Salakhutdinov在頂尖學術刊物《Scince》上發表了一篇文章，開啓了深度學習在學術界和工業界的浪潮。

這篇文章有兩個主要的訊息：

1）不少隱層的人工神經網絡具備優異的特徵學習能力，學習獲得的特徵對數據有更本質的刻劃，從而有利於可視化或分類；

2）深度神經網絡在訓練上的難度，能夠經過「逐層初始化」（ layer-wise pre-training）來有效克服，在這篇文章中，逐層初始化是經過無監督學習實現的。

Hinton的學生Yann LeCun的LeNets深度學習網絡能夠被普遍應用在全球的ATM機和銀行之中。同時，Yann LeCun和吳恩達等認爲卷積神經網絡容許人工神經網絡可以快速訓練，由於其所佔用的內存很是小，無須在圖像上的每個位置上都單獨存儲濾鏡，所以很是適合構建可擴展的深度網絡，卷積神經網絡所以很是適合識別模型。

2015年，爲記念人工智能概念提出60週年，LeCun、Bengio和Hinton推出了深度學習的聯合綜述。

深度學習可讓那些擁有多個處理層的計算模型來學習具備多層次抽象的數據的表示。這些方法在許多方面都帶來了顯著的改善，包括最早進的語音識別、視覺對象識別、對象檢測和許多其它領域，例如藥物發現和基因組學等。深度學習可以發現大數據中的複雜結構。它是利用BP算法來完成這個發現過程的。BP算法可以指導機器如何從前一層獲取偏差而改變本層的內部參數，這些內部參數能夠用於計算表示。深度卷積網絡在處理圖像、視頻、語音和音頻方面帶來了突破，而遞歸網絡在處理序列數據，好比文本和語音方面表現出了閃亮的一面。

當前統計學習領域最熱門方法主要有deep learning和SVM（supportvector machine），它們是統計學習的表明方法。能夠認爲神經網絡與支持向量機都源自於感知機。

神經網絡與支持向量機一直處於「競爭」關係。SVM應用核函數的展開定理，無需知道非線性映射的顯式表達式；因爲是在高維特徵空間中創建線性學習機，因此與線性模型相比，不但幾乎不增長計算的複雜性，並且在某種程度上避免了「維數災難」。而早先的神經網絡算法比較容易過訓練，大量的經驗參數須要設置；訓練速度比較慢，在層次比較少(小於等於3)的狀況下效果並不比其它方法更優。

神經網絡模型貌似可以實現更加艱難的任務，如目標識別、語音識別、天然語言處理等。可是，應該注意的是，這絕對不意味着其餘機器學習方法的終結。儘管深度學習的成功案例迅速增加，可是對這些模型的訓練成本是至關高的，調整外部參數也是很麻煩。同時，SVM的簡單性促使其仍然最爲普遍使用的機器學習方式。

人工智能機器學習是誕生於20世紀中葉的一門年輕的學科，它對人類的生產、生活方式產生了重大的影響，也引起了激烈的哲學爭論。但總的來講，機器學習的發展與其餘通常事物的發展並沒有太大區別，一樣能夠用哲學的發展的眼光來看待。

機器學習的發展並非一路順風的，也經歷了螺旋式上升的過程，成就與坎坷並存。其中大量的研究學者的成果纔有了今天人工智能的空前繁榮，是量變到質變的過程，也是內因和外因的共同結果。

回望過去，咱們都會被這一段波瀾壯闊的歷史所折服吧。