百度技術沙龍第 54 期 人工智能技術應用

本文做者:HelloDeveloper算法

2014 年 9 月 20 日,在由@百度主辦、@InfoQ負責策劃組織和實施的第 54 期百度技術沙龍活動上,來自百度天然語言處理部的楊程和來自清華大學自動化系控制理論與技術研究所的趙明國,兩位講師分享了各自在人工智能及機器學習領域的相關經驗。微信

 

本次分享的話題分別是「 計算機圍棋 - 蒙特卡洛搜索與統計學習」和「 RoboCup 人形組的技術與挑戰」。本文將對這兩個主題分享作下簡單的回顧,同時提供相關資料的下載。機器學習

 

主題一:計算機圍棋 - 蒙特卡洛搜索與統計學習(下載講稿)分佈式

 

計算機博弈在人工智能這個領域是一個重要的研究方向,這與圍棋的特性息息相關。楊程舉例道:好比說 19 路的圍棋它有 361 個交叉點,若是咱們簡單地估計它的組合數的話,應該是大概 361 個節程,這可謂一個天文數字了。因此咱們也常說它的空間複雜度是近似無窮大的概念。除了空間無窮大之外,它的狀態也沒有辦法評估。任意地給一個棋盤的狀態,有 ABCD 可選的點,咱們怎麼樣知道哪一個點是最好的,或者說哪一個點的價值高,好有多好,壞有多壞。圍棋這塊,到如今也沒有辦法作。這和人工智能的某些領域還比較相似,因此咱們把這個領域做爲試金石,若是這個領域研究好,相關的領域也會有所提高,蒙特卡洛搜索就是在這樣的背景下應運而生。性能

 

在介紹完蒙特卡洛搜索的背景後,楊老師便開始展開具體的技術知識分享。他首先給你們展現了一個樹型結構圖(Mini-Max 搜索),這是臨河博弈的解決方案,聽說仍是五十年代提出來的。蒙特卡洛搜索實際上就是基於 Mini-Max 來作的。九十年代初,有一個德國人就把它首先用在了圍棋上,可是那時候效果不好,因此他在論文中也提到了,看上去很可笑的一個方程,他沒有辦法用計算語言告訴你,黑必定好,仍是白必定好,至少他翻譯不成計算語言。另外,棋盤上衆多的閒點,每個點價值最大,ABCD,哪些值值多少分,它是沒辦法告訴你的。因此早期的阿爾法貝塔搜索,在搜到 E 節點的時候,會寫一個屏盤數,讓這個去決定哪一個點好,哪一個壞,返回回來。若是這個不許的話,搜索確定是一塌糊塗。後來蒙特卡洛這個辦法,既然到了一個點不知道哪一個好,哪一個壞,就乾脆一直搜,搜到咱們能夠判別的狀態,這樣咱們就很容易判斷,這個圍棋的勝負了。學習

關於蒙特卡洛搜索其實包含兩個部分,一個是 In-Tree 部分和 Out-Tree 部分。In-Tree 的時候究竟怎麼搜索?Out-Tree,蒙特卡洛的思想就是一個隨機下子,就是說既然過了樹節點和葉子節點之後,雙方能夠隨機在棋盤上扔,扔到一個狀態後咱們再數一下誰贏誰負了。可是一次搜索確定不行的,咱們通過大量仿真之後,發現 0.75 是一個均值,就是說走這條路 75% 贏了。咱們大量作這樣的仿真,而後每個節點的時候咱們選擇均值最大的那個分值,蒙特卡洛搜索的基本思想就是這樣。人工智能

固然蒙特卡洛搜索它仍是不夠準確,其實最關鍵的緣由在於:咱們在每個樹節點的時候,怎麼判斷應該往哪邊走,這個很困難。這裏面仍是有些很深的東西在統計學上。咱們能夠探索它的均值是否是最好,多去利用它。首先要解決探索與利用的平衡。2002 年,一個奧地利人提出了 UCB 的計算,這個算法要求剛開始的時候,賭徒每次都試一次,試完一次之後,就開始作選擇了,咱們看一下這個地方有這個公式,R,表示我如今第 K 個手臂拿到了全部的金幣數,TK(N)表示在 N 次試驗中,第 K 個手臂總共實驗的次數,也就是說 R/T 是均值,後面是一個根號,這個叫作一個探討項,就是咱們剛纔說的,前面的是均值最大,固然均值最大不是咱們必定要的,因此咱們須要有一個探索項,咱們每一次作選擇的時候,其實是要求最大的整個公式,咱們就選擇這個。spa

 UCB 和 UCB1 Tuned 產生了兩個公式,在實驗中公式 2 比公式 1 效果要好的多。咱們看看 UCT 的算法,它實際上是很巧妙地藉助了 Banit 的算法,可是問題來了,剛開始的時候在內存裏是沒有樹的,是空的,這個樹怎麼增加?由於這個樹每一個節點都會出不少統計值,因此你樹的形狀長的好很差看,若是你太平了,好比像徹底二叉樹那樣,好的壞的沒區別,這個樹確定是不行的,咱們但願這個樹好的方向伸展的很深,壞的很淺,因此這個樹的增加在咱們這個探索的過程也是很重要的。翻譯

最後,楊老師總結到:今天的分享內容理論有些複雜,系統也相對複雜,一個小時確定是不夠的,若是你們感興趣,能夠私下討論,一塊兒交流。blog

主題二:Robocup 人形組的技術與挑戰

什麼是 Robocup?

來自清華大學的趙明國老師分享了提到:Robocup 就是機器人踢足球。這個相信你們已經有所瞭解了。就像今年剛剛在巴西舉辦的機器人足球錦標賽同樣,它由一個 Robocup 協會舉辦,形式和人的作法是同樣的。主要研究兩個問題,一個是多智能系統,另外一個是分佈式智能系統。由於機器人必定是多個機器人足球一個團隊踢球,這樣做爲多智能體的一個平臺是獲得你們公認的。每一個機器人踢球有獨立思考,而後造成團隊合做,因此咱們叫分佈式智能。把這兩個結合起來當一個平臺去作。

Robocup 的目的是什麼?

1997 年,深藍打敗了當時人類的第一把交椅,就是國際象棋上的卡斯爬羅副,這做爲國際象棋上很是標誌性的節點,這個就意味着人工智能再往下發展要有一個新目標。新目標選擇什麼好呢?通過幾年的討論,包括在阿爾斯國際會議上進行初步性探索比賽以後,正好在 1997 年的時候深藍取得這個勝利,這個做爲人類標誌性任務結束了,必定要拿到下一個任務,這個任務在 ICI 上正式把這個題目肯定下來,實際當時沒有把中國圍棋考慮進去,由於它和國際象棋的內容同樣,雖然圍棋會更難。機器人踢足球,你們想人踢足球的時候,不只僅在動,對手也在動,時時刻刻是動態的環境,這是最主要的區別。另外一個,就是狀態的不一樣,下棋的時候你一步,我一步,輪流下,在踢足球的比賽裏徹底是一個實時性對抗,踢足球必須在最準確的時間作最準確的選擇。第三,信息的獲取。由於在圍棋裏面或者象棋裏面,還有其餘棋裏,你全部的狀態是準確的,全部的信息是徹底準確的,就是計算機裏取到的數據沒有任何的區別,可是踢足球不同了,這個我想你們踢過球都應該瞭解這個狀況,你不可能對全局的情況有一個全面的瞭解,即便解說員在上面,你也可能只關注比賽的一部分,你如何經過一部分的信息可以判斷總體的局面,那就出現了不少不少不同的地方。不管分佈仍是集中,各有各的優勢,各有各的弱項,因此在不一樣領域的應用也不同,不見得分佈必定好,或者集中好,這有很大的差異,看具體的應用。

Robocup 基本的構件

趙明國老師提到,大概分紅這麼幾類:第一大類叫機器人足球這部分(下面有不少不少的,根據技術發展方向不一樣和階段的不一樣分了幾個組別);第二大類叫救援,這個是偏機器人的,由於救援自己是遙控的,它不太須要不少獨立的,因此救援裏分仿真和實體的。再往下發展,最近大概三到五年已經很是獲得重點關注,由於這個應用比較近的,就是家庭組,由於機器人要走入家庭,不僅是純粹的和 IT 業結合的,並且跟家庭結合,跟工廠裏的實物結合,這個特別有意義,並且如今美國、歐洲都在作。咱們回顧來看,Robocup 仿真組,這個還屬於純粹的人工智能部分,即純粹軟的部分,是裏面獨立的程序在作。可是對於你編寫的程序來說,這個是你能夠認爲它是真的,可是它的真實後臺不是這樣的,因此咱們叫仿真組,仿真組在必定程度上是能夠的,這個組比較適合於中國開展,因此咱們在這個領域取得的成績,最先取得成績的也是這個組,並且如今開展規模最大的是這個組,好像不少大學裏有不少人在作這一類,實際上如今靠人海戰術也作的不錯,就是帶引號的人工智能,作的也不錯。

Robocup 的技術挑戰

趙老師提到:早在 2000 年之前,就提出了這樣的目標:在二十一世紀中葉(即 2050 年先後)的時候,但願機器人組成的足球隊,按照人的全部的比賽規則進行踢,機器人要打敗人類,把這個做爲最終的目標。從 1997 年到如今也十幾年了,趙老師認爲目前仍是處於比較低層次階段,可是就近幾年機器人領域和智能領域的發展狀況而言,在 2050 年,真可能實現這樣的事情。你們儘可能發揮想象力吧。

OpenSpace(開放式討論環節)

爲了促進參會者與咱們每期的嘉賓以及講師近距離交流,深刻探討在演講過程當中的疑問,本次活動依然設置了 Open Space(開放式討論)環節。

在 Open Space 的總結環節,兩位話題小組長分別對討論的內容進行了總結。

楊程:咱們探討的問題條件限制多一些的,涉及的技術比較深,主要仍是將機器學習方面,你們在作其餘領域的,也能夠去嘗試。好比說強化學習、個性化推薦等方面,都有相關技術,建議你們試試,我們也能夠先下交流。

趙明國: 我們探討的問題是開放性的,好比說,全世界有一百我的作這個事情,可是一百我的的價值取向都是不同的,我我的會從我本身的研究領域去給你們解答,若是在智能硬件等方面也很感興趣的同窗,也歡迎多多交流。

會後,一些參會者也經過微信分享了他們的參會感覺:

@Qian Jun:統計學、人工智能、機器學習、不少學科知識、堅持學習。

@Delete:每次看到圍棋人工智能的研究時,都會長舒一口氣:人類還有但願。

@壹路高歌:徹底模擬人的意義是什麼呢?人得器官自己也有不少缺點,應用任何可用的高科技、高性能傳感器難道很差嗎?

@章恆:喜歡 Computer Go 的講座,蒙特卡洛搜索其實很好理解,但具體實現仍是有必定的難度。

原文連接地址:https://developer.baidu.com/topic/show/290164

相關文章
相關標籤/搜索