讓《強化學習(第2版)》架起一座通往強化學習經典知識寶庫的橋樑

上交大計算科學與工程系俞凱教授,5分鐘口述講解,帶你快速認識瞭解年度重磅圖書《強化學習(第二版)》!html

在 AlphaGo打敗李世石以後,AlphaZero以其徹底憑藉自我學習超越人類在各類棋類遊戲中數千年經驗的能力再次刷新了人類對人工智能的認識,也使得強化學習與深度學習的結合受到了學術界和產業界的史無前例的關注。算法

現在,《強化學習(第2版)》中文版的隆重上市,爲機器學習領域的中國學者和學生架起一座通往強化學習經典知識寶庫的橋樑。本書來自強化學習領域先驅者Richard S. Sutton和Andrew G. Barto之手,Csaba SzepesvariDemis Hassabis鄧力黃士傑Pedro Domingos漆遠Tom Mitchell楊強Yoshua Bengio張鈸周志華等國內外行業大咖一致給出好評。安全

♪ 點擊收聽音頻,本書譯者、上海交大計算科學與工程系教授,俞凱老師,用5分鐘的時間帶你快速瞭解、認識強化學習技術以及《強化學習(第2版)》這部殿堂之做。網絡

俞凱 / 《強化學習(第2版)》譯者,上海交通大學計算科學與工程系教授,思必馳公司創始人、首席科學家。機器學習

———— ————學習

如下爲音頻文字

你們好,我是俞凱。優化

首先熱烈祝賀《強化學習(第2版)》在國內正式發行。人工智能

「思想老是走在行動的前面,就好像閃電老是走在雷鳴以前」,這是德國詩人海涅的詩句,也再恰當不過地描述了我第一次讀到本書英文原版時候的感受。這本書的兩位做者Richard S. Sutton 和 Andrew G. Barto 就是思想的先行者,而這本書所介紹的強化學習的思想,則是後深度學習時代技術發展最重要的火種之一。翻譯

以鏈接主義的神經網絡爲表明的深度學習,毫無疑問是21世紀初人工智能領域當中最重要且最具備實用意義的技術突破。它爲基礎研究走向產業應用作出了巨大的貢獻,同時也贏得了巨大的聲譽和關注,今年的圖靈獎就被授予了深度學習的幾位開創者。調試

可是如火如荼的產業應用其實並不能掩飾出咱們基礎研究當中對深度學習以及將來人工智能走向的擔心,愈來愈多的研究者已經把對深度學習的改良性研究視爲工業界的應用技巧而開始關注與聯結主義的經典深度學習不一樣的新的人工智能範式的探索。而這其中我看到了兩個重要的趨勢,一個是黑箱到白箱,另一個是開環到閉環

第一個就是將鏈接主義的、不可解釋的神經網絡式的黑箱學習,與先驗知識、符號推理和經典的機器學習相結合,實現可解釋、可推理、可操控的新一代的白箱學習,實現比較安全的人工智能。

另一個也是咱們很是關注的,從開環到閉環,也就是從與傳統的、基於靜態的數據和標籤的數據的收集與模型的優化,是相互獨立的兩個過程的開環學習,逐漸轉化成基於動態標籤的數據自己的產生和標籤的出現與模型的優化緊密耦合在一塊兒的閉環學習。

**強化學習就是這種閉環學習的人工智能範式的一個典型的表明。**正如這本書當中所詳細介紹的,它與傳統的預先收集,或者是構造好數據以及標籤的有監督學習有着很是本質的差異。它是在強調與環境的交互當中獲取那些反映了真實目標達成度的反饋信號,強化學習會強調試錯的學習和序列決策行爲當中的動態和長期的效應,這些都使得強化學習適用於解決人工智能領域當中的一些深度的難題,好比說我本人所從事的認知型人際口語對話系統,強化學習的使用就具備無可替代的重要地位。固然更爲重要的,在AlphaGo和AlphaZero這樣一些很是有顯示度的棋類對弈的研究當中,強化學習刷新了人類新的經驗認知,使得學術界和產業界爲強化學習與深度學習的結合,都給出了史無前例的關注。

**《強化學習(第2版)》**就是在這樣的背景之下出版的。

**這本書並非一個實用主義的算法的普及材料,而是一本強化學習思想的深度解剖的材料,是強化學習基礎理論的一個經典描述。**這本書並無從複雜的理論角度、算法角度對強化學習的理論和方法進行形式化的推導,而更多的是從基本的思想出發,深刻淺出地介紹了各個基本概念。它同時也包含了不少與時俱進的最新的應用成果和做者最新的一些思想。這本書既能夠是一個初級教材,也能夠做爲研究者自學的一個入門教程。

在這本書的翻譯過程中,Richard S. Sutton和Andrew G. Barto還特地爲中國的讀者們寫了一段寄語,其中提到「但願本書的中文譯本可以促進中國學生產生更多的新的思想,爲世界範圍的強化學習的研究繁榮作出貢獻」,這一指望也使得做爲翻譯者的我倍感榮幸。也指望本書的中文譯本可以讓他們的思想爲更多的中國研究者所瞭解,做爲一個火種在中國孕育,而且產生人工智能前沿研究的各類新的思想。

———— ————

瞭解本書詳情:京東噹噹

相關文章
相關標籤/搜索