本文由 網易雲 發佈。正則表達式
原文閱讀地址:人工智能的全面科普-網易雲博客算法
人們在平常生活中接觸人工智能的頻率愈來愈高,有能夠幫用戶買菜的京東智能冰箱;能夠作自動翻譯的機器;還有Siri、Alexa和Cortana這樣的機器人助理;以及無人車、AlphaGo等已經把人工智能技術帶到了「看獲得摸得着」的境地。人工智能正之前所未有的態勢洶涌而來,相關領域的融資總額一直在逐年穩步增加,到2016年達到數十億美圓的火爆程度。那麼人工智能究竟是什麼?這個領域涉及哪些方面?人工智能要完成的目標和任務有哪些?接下來的內容將作一一介紹。數據庫
Alan Turing定義的AI是:能使計算機完成那些須要人類智力才能完成的工做的科學。斯坦福大學的學者認爲AI是智能機器的科學和工程,特別是智能計算機程序。維基百科定義AI是指由人工製造出來的系統所表現出來的智能,該詞同時也指研究這樣的智能系統是否可以實現,以及如何實現的科學領域。無論怎樣定義,都離不開智能,然而到目前爲止人類還沒能統一地給出智能的定義,一般所說的智能也只是參考人類智慧的表現形式。原中國人工智能學會理事長鍾義信教授,認爲人類智慧包含發現問題、定義問題、解決問題三方面,而人工智能目前只作到了解決問題的程度。筆者認爲智能是一種有序,是信息的體現,也是使世界朝着有序的方向發展的能力。可悲的是,根據熵增原理,不管智能體作怎樣的努力,整個宇宙老是朝着熵增長的方向發展,即愈來愈無序和混亂。不知道這是上帝故意的安排,仍是人類觀察到的宇宙以外另有天地。網絡
1950 年代初期,人工智能聚焦在所謂的強人工智能,但願機器能夠像人同樣完成任何智力任務。強人工智能的發展止步不前,致使了弱人工智能的出現,即把人工智能技術應用於更窄領域的問題。1980 年代以前,人工智能的研究一直被這兩種範式分割着,兩營相對。可是,1980 年左右,機器學習開始成爲主流,它的目的是讓計算機具有學習和構建模型的能力,從而它們可在特定領域作出預測等行爲。架構
歷史上人工智能有三大學派:符號主義(symbolicism),又稱爲邏輯主義(logicism)、心理學派(psychologism)或計算機學派(computerism),其原理主要爲物理符號系統(即符號操做系統)假設和有限合理性原理。鏈接主義(connectionism),又稱爲仿生學派(bionicsism)或生理學派(physiologism),其主要原理爲神經網絡及神經網絡間的鏈接機制與學習算法。行爲主義(actionism),又稱爲進化主義(evolutionism)或控制論學派(cyberneticsism),其原理爲控制論及感知-動做型控制系統。框架
符號主義認爲人工智能源於數理邏輯。其早在1956年首先採用「人工智能」這個術語。後來又發展了啓發式算法->專家系統->知識工程理論與技術,並在20世紀80年代取得很大發展。機器學習
鏈接主義認爲人工智能源於仿生學,特別是對人腦模型的研究。20世紀60~70年代,鏈接主義對以感知機(perceptron)爲表明的腦模型的研究出現過熱潮,因爲受到當時的理論模型、生物原型和技術條件的限制,腦模型研究在20世紀70年代後期至80年代初期落入低潮。直到Hopfield教授在1982年和1984年發表兩篇重要論文,提出用硬件模擬神經網絡之後,鏈接主義才又從新擡頭。1986年,魯梅爾哈特(Rumelhart)等人提出多層網絡中的反向傳播算法(BP)算法。此後又有卷積神經網絡(CNN)的研究,鏈接主義勢頭大振,從模型到算法,從理論分析到工程實現,爲神經網絡計算機走向市場打下基礎。2006年,Hinton在《Science》和相關期刊上發表了論文,首次提出了深度信念網絡(DBN)的概念,將深度學習推向學術界併成爲當前人工智能領域很是熱門的研究方向。ionic
行爲主義認爲人工智能源於控制論。控制論思想早在20世紀40~50年代就成爲時代思潮的重要部分,影響了早期的人工智能工做者。維納(Wiener)和麥克洛克(McCulloch)等人提出的控制論和自組織系統以及錢學森等人提出的工程控制論和生物控制論,影響了許多領域。控制論把神經系統的工做原理與信息理論、控制理論、邏輯以及計算機聯繫起來。早期的研究工做重點是模擬人在控制過程當中的智能行爲和做用,如對自尋優、自適應、自鎮定、自組織和自學習等控制論系統的研究,並進行「控制論動物」的研製。到20世紀60~70年代,上述這些控制論系統的研究取得必定進展,播下智能控制和智能機器人的種子,並在20世紀80年代誕生了智能控制和智能機器人系統。行爲主義是20世紀末才以人工智能新學派的面孔出現的,引發許多人的興趣。這一學派的表明做者首推布魯克斯(Brooks)的六足行走機器人,它被看做是新一代的「控制論動物」,是一個基於感知-動做模式模擬昆蟲行爲的控制系統。函數
人工智能的目標包括:推理、知識表示、自動規劃、機器學習、天然語言理解、計算機視覺、機器人學和強人工智能八個方面。知識表示和推理包括:命題演算和歸結,謂詞演算和歸結,能夠進行一些公式或定理的推導。自動規劃包括機器人的計劃、動做和學習,狀態空間搜索,敵對搜索,規劃等內容。機器學習這一研究領域是由AI的一個子目標發展而來,用來幫助機器和軟件進行自我學習來解決遇到的問題。天然語言處理是另外一個由AI的一個子目標發展而來的研究領域,用來幫助機器與真人進行溝通交流。計算機視覺是由AI的目標而興起的一個領域,用來辨認和識別機器所能看到的物體。機器人學也是脫胎於AI的目標,用來給一個機器賦予實際的形態以完成實際的動做。工具
人工智能、機器學習、數據挖掘這些很是相關的術語或知識咱們常常看到,也見到不少關於三者關係的文章和討論。通常來講,人工智能是一個很大的研究領域;機器學習是人工智能的一個目標,提供不少算法;而數據挖掘是偏向算法應用的部分。三者相輔相成,另外也須要其餘領域的知識支持。具體關係請參考下圖。
爲了達到人工智能的目標,下面依次梳理一下學術和工業界研究的各類方法和成果。
知識表示包括:基於知識的系統,表示常識知識等。傳統的知識表示已經很成熟了,包括了描述邏輯,也包括了語義網(資源描述框架RDF)。知識推理創建在邏輯上,首先須要龐大的數據集,好比freebase;其次須要關係抽取自動化工具;最後須要合理的知識存儲結構,好比資源描述框架RDF。谷歌提的知識圖譜概念就是一種知識工程,它有龐大的知識庫和基於知識庫的各類服務。早年業界研究的知識本體也是一種知識工程,研究成果有 FrameNet、WordNet、中文知網HowNet等。具體的知識本體的例子請參考下圖。
IBM在2011年研發了Watson問答系統。谷歌在2012年提出知識圖譜,做爲谷歌的兩大重要技術儲備,一個是深度學習,造成了谷歌大腦;另外一個就是知識圖譜,用來支撐下一代搜索和在線廣告業務。臉譜公司利用知識圖譜技術構建興趣圖譜,用來鏈接人、分享的信息等,並基於此構建了graph search。其餘的工業應用還有:SIRI、EVI、Google Now、Dbpedia、 freebase等。通常一個知識工程的底層技術架構,請參考如下圖示。
首先要說一下有限狀態機(FSM),通常應用於遊戲機器人,網絡協議,正則表達式,詞法語法分析,自動客服等。以下圖是一個簡單的遊戲機器人狀態轉移和行動圖。
其次是狀態空間搜索,最簡單粗暴的是盲目搜索,就像特斯拉評價愛迪生:「若是說有一根針掉進草垛了,讓他去找,他會絕不猶豫的,一根一根草挑出來找」。優化改進的版本是啓發式搜索,如A*算法。這方面的應用有國際象棋Deepblue,圍棋AlphaGo。AlphaGo 在蒙特卡洛樹搜索 (Monte Carlo Tree Search, MCTS) 基礎上使用了深度學習,監督學習和加強學習等方法。「蒙特卡洛樹搜索」是一類啓發式的搜索策略,可以基於對搜索空間的隨機抽樣來擴大搜索樹,始終保證選取當前抽樣中的最優策略從而不斷接近全局最優,肯定每一步棋應該怎麼走纔可以創造更好機會。另外還包括:計劃、動做和學習,敵對搜索,基於邏輯的規劃方法,狀態演算等內容。
谷歌CEO桑德爾·皮蔡在一封致股東信中,把機器學習譽爲人工智能和計算的真正將來,可想而知機器學習在人工智能研究領域的重要地位。機器學習的方式包括:有監督學習、無監督學習、半監督學習和強化學習。其中的算法有:迴歸算法(最小二乘法、LR等),基於實例的算法(KNN、LVQ等),正則化方法(LASSO等),決策樹算法(CART、C4.五、RF等),貝葉斯方法(樸素貝葉斯、BBN等),基於核的算法(SVM、LDA等),聚類算法(K-Means、DBSCAN、EM等),關聯規則(Apriori、FP-Grouth),遺傳算法,人工神經網絡(PNN、BP等),深度學習(RBN、DBN、CNN、DNN、LSTM、GAN等),降維方法(PCA、PLS等),集成方法(Boosting、Bagging、AdaBoost、RF、GBDT等)。想要深刻學習的同窗請參考《機器學習知識表格》和《機器學習方法彙總》。
深度學習是機器學習中人工神經網絡算法的延伸和發展,近期深度學習的研究很是火熱,就在這裏介紹一下神經網絡和深度學習。先說兩層網絡,以下圖,其中a是「單元」的值,w表示「連線」權重,g是激活函數,通常爲方便求導採用sigmoid函數。採用矩陣運算來簡化圖中公式:a(2) = g( a(1) * w(1) ), z = g( a(2) * w(2) )。設訓練樣本的真實值爲y,預測值爲z,定義損失函數 loss = (z – y)2,全部參數w優化的目標就是使對全部訓練數據的損失和儘量的小,此時這個問題就被轉化爲一個優化問題,經常使用梯度降低算法求解。通常使用反向傳播算法,從後往前逐層計算梯度,並最終求解各參數矩陣。
深度學習採用多層神經網絡,在求解參數矩陣時計算量隨層數呈指數上升。假設處理一張300*300像素的圖片,採用8層網絡,每層6個節點,那麼在全聯接的狀況下將有300*300*6^8個參數須要計算求解。卷積神經網絡(CNN)提出卷積算子和權值共享來大幅減小參數個數。另一個問題是梯度彌散,因爲sigmoid函數求導後的函數小於0.25,標準化正態分佈產生的初始隨機參數w也都在0-1之間。而各層的梯度是從後往前逐層求解,且前面層的梯度是來自後面層的值乘積。所以會有一個剃度指數,一旦初始值小於1,通過多層乘積後將會迅速變小。一個有效的解決方案是使用ReLU作激活函數。介於篇幅這裏只作簡介,想要深刻了解深度學習的同窗請參考《一文讀懂深度學習》。
4.4 天然語言處理NLP
NLP是人工智能的另外一個目標,用於分析、理解和生成天然語言,以方便人和計算機設備進行交流,以及人與人之間的交流。它的應用領域包括:機器翻譯,文本、語音、圖片轉換,聊天機器人,自動摘要,情感分析,文本分類,信息提取等。如下給出了天然語言處理簡要的知識架構圖。
視覺對人很重要,人類得到訊息90% 以上是依靠眼睛的,那麼對於機器人要想得到人獲取信息的能力,重點是解決機器人視覺系統。目前機器視覺已經能夠作到不少事情,好比識別人臉、標誌和文字;探測物體並瞭解其環境的應用,如自動駕駛無人車等;檢測的事件,對視頻監控和人數統計;組織信息,如對於圖像和圖像序列的索引數據庫;造型對象或環境,醫學圖像分析系統或地形模型;自動檢測,如在製造業的應用程序。
機器人學是一個交叉學科,主要研究包括環境適應機器仿生,機器人自主行爲,人機協做,微納操做機器人,製造裝備機器人、科學工程機器人、服務型機器人等。目前國內的機器人行業尚未造成規模,商業化作得好的好比大疆、瀋陽新鬆機器人公司。
強人工智能是人工智能研究的最主要目標之一,強人工智能也指通用人工智能(artificial general intelligence,AGI),或具有執行通常智慧行爲的能力。強人工智能一般把人工智能和意識、感性、知識和自覺等人類的特徵互相連結。實現強人工智能至少須要擁有如下能力:
目前的強人工智能主要出如今電影或小說裏,好比斯皮爾伯格導演的《人工智能》裏面的機器男孩大衛。
最後,再回到人類智慧和人工智能的討論上,人類智慧是人類的「隱性智慧」與「顯性智慧」相互做用相互促進相輔相成的能力體系。其中,「隱性智慧」主要是指人類發現問題和定義問題從而設定工做框架的能力,由目的、知識、直覺能力、抽象能力、想象能力、靈感能力、頓悟能力和藝術創造能力所支持,具備很強的內隱性,於是不容易被確切理解,更難以在機器上進行模擬;「顯性智慧」主要是指人類在隱性智慧所設定工做框架內解決問題的能力,依賴於收集信息、生成知識和創生解決問題的策略並轉換爲行動等能力的支持,具備較爲明確的外顯性,於是有可能被逐步理解並在機器上模擬出來。目前幾乎全部的人工智能都只能模仿人類的解決問題的能力,而沒有發現問題、定義問題的能力。所以,「人工智能將全面超越人類智慧」的說法沒有科學根據,目前的人工智能只是幫助人類提升生產力的工具而已。
相關文章導讀:
瞭解 網易雲 :
網易雲官網:https://www.163yun.com/
新用戶大禮包:https://www.163yun.com/gift
網易雲社區:https://sq.163yun.com/