全文共2359字,預計學習時長5分鐘數據庫
圖片來源:pexels.com/@pixabay微信
最近,拉斯維加斯舉行了AWSre: MARS大會,會議的主題是機器學習、自動化和機器人技術(包括太空中的)將如何改變將來。不少人的關注點都放到了小羅伯特·唐尼身上,但其實,幾乎每個主題演講會議上都出現的模擬和強化學習纔是最矚目的:網絡
第一天:經過強化學習,Boston Dynamics公司的機器人已經掌握了後空翻、跳上窗臺和託舉的數據。而迪斯尼幻想工程已經把這一點帶到了一個新的層面——讓人形機器人來執行玩命的特技。機器學習
次日:亞馬遜經過模擬在Go商店中的困難場景來訓練模型機。亞馬遜配送中心的機器人在接受過強化學習的培訓後還能夠對包裹進行分類。Alexa使用模擬交互自動學習對話流。亞馬遜無人機快遞使用模擬數據來訓練如何檢測無人機下方的人。而像Insitro這樣的公司已經開始經過生成生物交互數據來解決生物醫學問題。svg
第三天:吳恩達呼籲元學習。成百上千的不一樣的模擬器被用來創建更通用的強化學習代理,這能夠說是AI的「下一件大事」。自動駕駛汽車公司Zoox和Aurora就在利用RL和元學習以解決城市環境中駕駛的複雜性的問題。而Dexnet試圖經過模擬建造一個龐大的3D模型數據庫,以更好的掌握問題所在。Jeff Bezos對Daphne Koller關於RL生物工程將在10年內發展壯大的觀點表示贊同。學習
總而言之:測試
如若一個領域的相關事務能夠被準確地模擬,強化學習將可以在將來的幾年急劇地擡升此領域的技術水平。優化
那麼又關物理什麼事呢?人工智能
一個4歲的孩子,進入了人生中的「爲何」階段,這個時候她的大腦開始從簡單的認知事物轉移成了想要理解這個世界的全部東西。這就是大人和孩子之間典型的交流:設計
繪製使用http://cmx.io
那這些又和數據科學有什麼關係呢?
Jeff Dean在今年穀歌I/O會議上發表關於深度學習的演講時提到,神經網絡已經被訓練得近似物理模擬器所能生成的結果,而且速度是物理模擬器的30萬倍,也就是說,研究人員甚至可能一頓午飯的時間就測試了100M的分子。
圖片來源: Jeff Dean在谷歌 I/O 2019的演講
這是一個巨大的進步,由於它容許咱們使用re: MARS上引人矚目的強化學習來解決新的各類問題。在這些進步以前,爲每一個潛在的結果完整運行一個物理模擬器所需的循環時間太長,以致於RL很難達成一個有回報的結果。但如今,RL能夠學習分子的物理特性,從而優化化學工程師的預期收穫。
圖片來源:https://xkcd.com/435/
鑑於一切均可以被簡化爲物理學,咱們甚至能夠想象一個能以最基礎的原理創建更多方案的世界。在這個會議以前,不少人都覺得模擬生物學相關的研究是高不可攀的,但事實上,Insitro這樣的公司已經着手應對這些問題。
那時RL將可用於「更高級別的」科學,如心理學:
1. 原始計算能力:谷歌發佈了T3 TPU Pods的私有數據,擁有超過100的每秒浮點運算次數的處理能力,爲運行神經網絡訓練構架而造。擁有這樣的計算能力後,像材質分析這類的任務就變得十分易學。另外,谷歌開始使用RL設計他們本身的芯片,隨着時間的推移也預期可以帶來更多的進展。
2. 更優良的可重用性:DeepMind被用於多層網絡構架中,而RL負責根據任務須要選擇合適的下游網絡。這類的RL代理經過訓練就能夠把高難的任務經過分解的方式簡單化,並運用遷移學習解決多任務。
3. 更好的概括:上述的元學習技術正被用於提升RL代理應對未遇到過的情景的能力。
4. 更好的優化:麻省理工學院的彩票假設論文展現了神經網絡能夠經過尋找「優勝票」的路徑來進行進一步壓縮,隨後僅使用這些路徑來進行訓練。
5. 更好的訓練數據生成:相似AutoCad的生成設計的界面能夠幫助設計師/工程師找到所需的規格,以使RL代理正確運行。每次新的人接管時,自動駕駛汽車公司都會生成新的訓練情景。
你又該作些什麼呢?
圖片來源:
https://en.wikipedia.org/wiki/Reinforcement_learning#/media/File:Reinforcement_learning_diagram.svg
首先,你須要去了解強化學習,這裏簡明扼要地介紹了RL代理獲取情景狀態,選擇一個行動影響環境,觀察新的情景,重複步驟。若是行動獲得了積極的結果,代理獲得獎勵,它就傾向於在未來相似的情景中給出相同的一系列動做。
這些步驟被大量重複,最終,它變得十分擅長得到獎勵(咱們也爲此訓練它)。豐富經驗的最好辦法就是使用AWS Deep Racer,這是一個能夠提供模擬環境的縮小版的賽車、一個RL訓練裝置,以及一塊與模擬相對應的物理硬件。你只須要調控獎勵機制來訓練你的賽車代理。
圖片來源:
https://www.semanticscholar.org/paper/OpenAI-Gym-Brockman-Cheung/2b10281297ee001a9f3f4ea1aa9bea6b638c27df/figure/0
其次,你須要積極尋找能夠更好模擬業務系統的方法。任何現有的模擬器都是很好的起點,但更新的模擬器更可能帶來顯著的影響。AWS在這類領域中提供名爲「RoboMaker」的服務,但還有許多其餘的備選方案,而其中大多數都基於開放式API Gym。
最後,應當密切關注那些駕馭這股技術潮流的新公司。極可能最終會發展出一系列互相構建的開放資源模擬器,附帶壓縮每層可學習的信息的神經網絡。在此以前,有衆多領域可能會有許多專有的解決方案超越當前最早進的水平。隨着時間推移,這項技術終將給以科學爲基礎的領域帶來可觀的收益,例如藥物、材料科學、醫學、石油與自然氣,及各類各樣的其餘領域。
AI將來說*青年學術論壇 火熱報名中
留言 點贊 關注
咱們一塊兒分享AI學習與發展的乾貨
歡迎關注全平臺AI垂類自媒體 「讀芯術」
(添加小編微信:dxsxbb,加入讀者圈,一塊兒討論最新鮮的人工智能科技哦~)