做者:@KYLE_L_WIGGERS
編譯:徐九
原文連接:https://venturebeat.com/2020/...算法
2019 年 7 月,微軟宣佈對總部位於舊金山的人工智能非營利組織 OpenAI 投資 10 億美圓,將與 OpenAI 長期合做構建新的 Azure AI 超級計算技術,進一步擴展大規模 AI 能力,兌現其通用人工智能(AGI)的承諾。服務器
做爲交換,OpenAI 贊成將其部分知識產權受權給微軟,微軟隨後將把這些知識產權商業化並出售給合做夥伴,並在 OpenAI 開發下一代計算硬件的過程當中,在 Azure 上訓練運行 AI 模型。網絡
幾個月後的微軟 Build 2020開發者大會上,雙方合做的第一個成果被揭曉,是一臺專爲 OpenAI 的 AI 模型而設計的超級計算機。框架
微軟宣稱它是世界上排名前五的超級計算機。根據最新的排名,它的性能僅次於中國國家超級計算機中心的天河 - 2A,這意味着它在峯值時能夠執行每秒 38.7 - 100.7 萬億次浮點運算(即 petaflops)。機器學習
長期以來,OpenAI 一直斷言,巨大的計算能力是通往通用人工智能(AGI),或者說可以學習人類所能完成的任何任務的 AI 的必經之路。雖然像 Mila 創始人 Yoshua Bengio 和 Facebook 副總裁、首席人工智能科學家 Yann LeCun 等知名人士認爲 AGI 不可能存在,但 OpenAI 的聯合創始人和支持者 -- 其中包括 Greg Brockman、首席科學家 Ilya Sutskever、Elon Musk、Reid Hoffman 和前 Y Combinator 總裁 Sam Altman 都相信強大的計算機與強化學習等技術相結合,能夠實現改變範式的人工智能進步。分佈式
這臺超級計算機的亮相表明了 OpenAI 對這一願景的最大賭注。工具
這款由 Azure 託管、OpenAI-co 設計的新機器包含了超過 28.5 萬個處理器內核、1 萬塊顯卡,每一個顯卡服務器的鏈接速度爲每秒 400 Gbps。它是爲了訓練單個海量 AI 模型而設計的,這些模型是經過攝取自出版的書籍、說明書、歷史課、人力資源指南和其餘公開資料中的數十億頁的文原本學習。性能
其中的資料包括 Nvidia 公司的天然語言處理(NLP)模型,該模型包含 83 億個參數,或者說是模型內部的可配置變量,這些變量的值被用來進行預測;微軟的圖靈 NLG(170億個參數),它在一些語言基準上取得了最早進的結果;Facebook 最近開源的 Blender 聊天機器人框架(94 億個參數);以及 OpenAI 本身的 GPT-2 模型(15 億個參數),它在給出簡短的提示後,生成的文本使人印象深入。學習
"隨着咱們愈來愈瞭解到咱們須要什麼,以及組成超級計算機的全部組件的不一樣極限,咱們真的可以說,'若是咱們能設計出咱們夢想中的系統,它會是什麼樣子的?" OpenAI CEO Sam Altman 在一份聲明中說。"而後微軟就可以構建它了。咱們看到,更大規模的系統是訓練更強大的模型的重要組成部分。"測試
研究代表,這些大型模型表現出色,由於它們可以深刻吸取語言、語法、知識、概念和上下文的細微差異,使它們可以總結演講、在遊戲直播聊天中節制內容、解析複雜的法律文檔,甚至從 GitHub 上搜刮代碼生成代碼。微軟已經使用其圖靈模型 -- 這些模型很快就會以開源的形式提供 -- 來加強 Bing、Office、Dynamics 及其餘生產力產品的語言理解能力。微軟稱,在 Bing 中,這些模型在某些市場上提升了標題生成和問題回答的效率,最高可達 125%。在 Office 中,它們表面上推進了 Word 的 Smart Lookup 和 Key Insights 工具的進步。Outlook 將它們用於建議回覆,自動生成可能的郵件回覆。而在 Dynamics 365 Sales Insights 中,它們能夠根據與客戶的互動向銷售人員提出行動建議。
從技術的角度來看,大型模型比它們的前輩們更勝一籌,由於它們是自我監督的,這意味着它們能夠經過暴露數據的各個部分之間的關係從數據中生成標籤 -- 這一步被認爲是實現人類智能的關鍵。這與監督式學習算法不一樣,監督式學習算法是在人類標籤化的數據集上進行訓練,很難針對行業、公司或感興趣的主題進行微調。
"微軟首席技術官 Kevin Scott 在一份聲明中說:"這些模型使人振奮的是,這些模型所能實現的事情的廣度。"這是關於可以同時在天然語言處理和計算機視覺中作一百個使人興奮的事情,當你開始看到這些感知領域的組合時,你將會有新的應用,這甚至是如今不可思議的。"
像圖靈家族中的那些模型與 AGI 相差甚遠,但微軟表示,它正在利用超級計算機探索能夠跨文本、圖像和視頻數據進行泛化學習的大型模型。OpenAI 也是如此。正如《麻省理工學院技術評論》今年早些時候報道的那樣,OpenAI 內部的一個名爲 Foresight 的團隊正在運行實驗,以測試他們經過使用愈來愈多的海量數據和計算量來訓練算法,能夠在多大程度上推進 AI 能力。另外,根據那篇爆炸性的報道,OpenAI 正在開發一個使用海量計算資源訓練圖像、文本和其餘數據的系統,該公司領導層認爲這是最有前途的 AGI 之路。
事實上,Brockman 和 Altman 特別相信 AGI 將比任何一我的都能掌握更多的領域,主要是經過識別人類專家所沒法掌握的複雜的跨學科聯繫。此外,他們還預測,負責任地部署 AGI---換句話說,與社會科學等相關領域的研究人員 "緊密合做 "部署 AGI,可能有助於解決氣候變化、醫療保健和教育等領域的長期挑戰。
目前還不清楚新的超級計算機是否強大到足以實現任何接近 AGI 的東西,不管它可能採起什麼形式;去年,Brockman 告訴《金融時報》,OpenAI 預計到 2025 年,微軟將花費 10 億美圓的投資所有用於構建一個能夠運行 "人腦大小的 AI 模型 "的系統。2018 年,OpenAI 本身的研究人員發佈的一份分析報告顯示,從 2012 年到 2018 年,最大的人工智能訓練運行的計算量以美 3.5 個月翻一倍的速度增加了 30 多萬次,遠遠超過了摩爾定律的速度。上週,與此同步,IBM 詳細介紹了 Neural Computer,它使用數百個定製設計的芯片在創紀錄的時間內訓練 Atari 遊戲的 AI,而 Nvidia 宣佈了基於其 A100 Tensor Core 顯卡配音的 5-petaflop 服務器。
有證據代表,效率的提升可能會抵消日益增加的計算需求。最近的一項單獨的 OpenAI 調查發現,自 2012 年以來,在一個流行的基準(ImageNet)中,訓練一個 AI 模型達到相同性能的圖像分類所需的計算量每 16 個月減小 2 倍。但與新穎的算法方法相比,計算量對性能的貢獻程度仍然是一個有待商榷的問題。
固然,須要指出的是,OpenAI 在遊戲和媒體合成方面,以較少的資源,在遊戲和媒體合成方面取得了顯著的 AI 收益。在谷歌雲平臺上,該公司的 OpenAI Five 系統天天在 256 塊 Nvidia Tesla P100 顯卡和 12.8 萬個處理器內核的基礎上,在 V 社的 Dota 2 比賽中,天天都能打出 180 年的遊戲,擊敗職業玩家(以及 99.4% 的玩家在公開賽中擊敗了職業玩家)。最近,該公司還在至少 64 塊 Nvidia V100 顯卡和 920臺 工人機上訓練了一套系統,每臺機器手操做一個魔方,每臺機器手擁有32個處理器核心,儘管成功率相對較低。而 OpenAI 的 Jukebox 模型則在 896 塊 V100 顯卡上運行模擬,以學習從頭開始生成任何風格的音樂,並附上完整的歌詞。
不管超級計算機變成了一塊小小的墊腳石,仍是邁向 AGI 的一大飛躍,用於設計它的軟件工具都有可能爲微軟打開新的市場機會。經過其 AI at Scale 計劃,這家科技巨頭正在提供資源,以優化的方式在 Azure AI 加速器和網絡上訓練大型模型。它將訓練數據分紅若干批次,用於訓練跨集羣的多個模型實例,並按期進行平均,以產生單一模型。
這些資源包括新版本的 DeepSpeed,這是一個用於 Facebook 的 PyTorch 機器學習框架的 AI 庫,它能夠在相同的基礎設施上訓練超過 15 倍以上的模型,訓練速度是原來的 10 倍,還支持 ONNX Runtime 上的分佈式訓練。微軟稱,當與 DeepSpeed 配合使用時,ONNX 上的分佈式訓練可使模型跨硬件和操做系統的性能提高高達 17 倍,微軟稱。
"經過開發這種用於訓練大型 AI 模型的前沿基礎設施,咱們正在讓全部 Azure 變得更好,"微軟首席技術官 Kevin Scott 在一份聲明中說。"咱們正在構建更好的計算機,更好的分佈式系統,更好的網絡,更好的數據中心。全部這些都讓整個 Azure 雲的性能、成本和靈活性變得更好。"