本報告目錄以下:api
研究:研究與技術突破安全
遷移學習微信
人工智能硬件網絡
圖像場景理解架構
大規模視頻理解數據框架
文本語義理解機器學習
目標導向的強化學習:以遊戲爲例分佈式
AlphaZero 無監督棋譜學習, OpenAI 魔獸爭霸工具
怎樣保證模型訓練的無偏性性能
調參的可解釋性
對抗攻擊
谷歌 AutoML 自動學習
Federated Learning
人才:AI 領域人才供需和分佈
行業:目前和將來 AI 驅動的大型平臺、資金和應用領域
雲計算
健康醫療
政務國防
隱私保護與數據匿名化
衛星數據處理
網絡安全
工場自動化
替代藍領工做
農業
自動駕駛
金融
企業自動化
材料科學
政策:公衆對 AI 的意見,經濟意義和新生的地緣政治學 (P109)
公衆對自動化的態度:兩份綜述
公衆對自動化的態度:皮尤研究中心
公衆對自動化的態度:布魯克林研究中心
美國勞工市場的變化
AI 對勞工市場變化的影響
AI 對就業率和工資的影響
各國的 AI 國家戰略:中國,法國,歐盟,加拿大,韓國
中國對半導體器件的強大需求
爲何跟美國比中國的半導體產業規模如此小
預測
將來一年的 8 個預測
總結
咱們經過學習示例來訓練機器學習模型解決任務。可是,爲解決一個新的任務,須要使用專門的新數據從新進行訓練。遷移學習可讓通過訓練得到的知識應用於新任務中。
遷移學習:從 ImageNet 訓練模型預測目標,檢測皮膚癌
遷移學習可以對人類患者的危險皮膚病變進行自動、最早進的檢測
Google InceptionV3 網絡首先在 ImageNet 上接受訓練,再使用 129,450 張臨牀圖像進行從新訓練以檢測 2,032 種不一樣的皮膚病。它能夠學習僅基於像素輸入和疾病標籤對圖像進行分類。
結果顯示,該模型優於 21 名斯坦福皮膚科專家。
半導體在促進 AI 發展中的角色
半導體(或芯片)是 AI 研究和應用進步的關鍵驅動因素,這是由於 AI 模型常常須要訓練大量數據來學習特定任務(如圖像識別)。
GPU 成爲 AI 模型訓練的得力助手,很大部分緣由是其能提供比 CPU 更強大的並行計算能力。這意味着更快的訓練速度和迭代。
硬件之戰: 更多 GPU 會讓訓練速度更快,構建規模更大、功能更強大的模型。
AI 硬件對深度學習意義重大
AI 模型性能隨着數據規模和模型參數提升,計算量提升。
毫無疑問,GPU 愈來愈受到開發者的歡迎。
然而,GPU 更擅長處理圖像任務,並進一步擴展到高性能的計算和 AI 任務。
訓練時雖然普遍使用 GPU,但它卻並不擅長推理。
雖然大多數狀況下,GPU 性能優於 CPU,但數據中心大量的 CPU 使其成爲一個有用且普遍使用的平臺。
例如,在 Facebook,GPU 基本上被用於線下訓練,而不是實時用戶數據處理。
處理器內核時鐘頻率沒有變得更快,摩爾定律產生的能量有限。
GPU 和新型硅片的租金價格過高,意味着計算資源會受限於資金預算。
雖然谷歌的 TPUv2 價格更貴,可是模型訓練速度更快,更加經濟。
在 Google I/O 2018 上,谷歌發佈了第三代 TPU。
在 2018 年 5 月的 GTC 上,英偉達發佈了 HGX-2,可同時用於高精度要求的科學計算和低精度要求的 AI 負載任務。
不少企業在開發定製 AI 芯片,包括 IC(集成電路)供應商英特爾、高通、英偉達等,科技巨頭和 HPC(高性能計算)供應商谷歌、亞馬遜 AWS、三星等,IP 供應商 ARM、新思科技等,中國創業公司寒武紀、地平線機器人等,以及全球的創業公司 Cerebras、Wave Computing 等。
大型雲服務商在製造專用 AI 硬件,並大幅提升預算支出。
傳統計算機視覺經過檢測物體來描述視覺場景
AI 模型進行物體像素關聯(語義分割)或識別展現物體(分類)
然而,檢測出圖像中的物體還不足以理解真實場景
AI 模型在進行基於目標理解描述視覺場景任務時犯了明顯的錯誤。
真正的視覺場景理解須要理解動做和常識
使用深度學習和標記目標動做的視頻來學習常識是一種可行的方法
建立訓練機器學習模型理解視頻的數據集
建立描述感興趣的動做的視頻,例如僞裝扔下一些東西
若是深度學習模型可以識別和消除視頻中行爲中的細微差異,那麼它具有了關於世界的常識。這也被稱爲「直觀物理學」(intuitive physics)。
深度學習模型實際上能夠理解視頻中的動詞和名詞。
機器還能夠經過學習從不一樣視角理解視覺場景
若是機器學習模型能夠正確地預測同一場景的另外一全新視角,它就得到了這個場景的內化知識
AlphaZero 代表深度強化學習能夠經過學習擊敗世界圍棋冠軍
AlphaZero 是一個無人類干預或歷史玩家數據輸入,經過自我對弈便可預測從一特定棋盤位置走棋輸贏機率的 AI 系統。讓人震驚的是,AlphaZero 系統超越全部其餘版本的 AlphaGo(基於兩套神經網絡),通過 40 天的訓練即超越人類最高水平。
OpenAI 的多代理強化學習系統學習複雜的實時戰略遊戲《魔獸爭霸 2》
OpenAI Five 是由 5 個 RL 代理組成的團隊,經過強化學習自我對弈優化遊戲策略每一個代理的神經網絡通過強化學習訓練均可觀察局部和高維環境來生成長期動做規劃。這些強化學習代理能夠組團戰勝人類玩家,它們採起的多樣化行動和大範圍地圖互動十分引人關注。
土耳其語中性別是中立的,可是谷歌翻譯會在英語 - 土耳其語轉換時產生性別區別,反之亦然。
當訓練數據中未合理標識皮膚顏色時,計算機視覺系統會作出冒犯性的種族偏見的行爲,好比一些人臉識別系統沒法識別黑皮膚的人。
典型的偏見來源於訓練數據沒有合理地表明多樣性或被標記有偏見的標籤
與全部軟件同樣,ML 模型也須要調參,可是卻很難解釋原理
許多 ML,尤爲是 DL 模型,不少徹底就是「黑盒子」
可解釋性能夠證實機器學習的推理是「正確」的
在計算機視覺中,模型能夠解釋一個具體的標籤是由哪一個像素推導而出(例如,哪一個像素是狗)
這樣,咱們就能夠知道模型究竟是真的正確學習了仍是由於某些錯誤的緣由偶然得出了正確的預測標籤。
下一步:用簡單易懂的語言解釋決策的合理性
結合文本生成基本原理和注意力視覺化能夠深刻解釋決策原理。
對於特定問題和圖像, Pointing 和 ustification Explanation (PJ-X) 模型預測答案和多模態的解釋都指向決策的視覺證據並提供文本。多模式解釋能夠生成更好的視覺和文本解釋。
對抗攻擊意味着現實世界中將存在嚴重的安全風險
受到對抗攻擊以後,原來能夠檢測到穿越斑馬線行人的計算機視覺系統就再也「看」不到他們了。
當自動駕駛車輛上路以後,這顯然會形成巨大的安全隱患。
谷歌的 AutoML 自動學習系統能夠找到計算機視覺任務的最佳模型。AutoML 遍歷架構搜索空間,找到兩個能夠集成到一個優於全部現有人造模型的最終模型(NASNet,右圖)的新單元設計(正常和縮小,左圖)。
分佈式 Federated Learning 學習分散數據採集和模型訓練
大型技術公司集中了大量的用戶數據。社區如今開始經過建立工具來分散數據全部權。OpenMined 這個 AI 模型自己是由模型全部者加密的,所以用戶沒法竊取。而用戶數據則保留在用戶本地設備,並可訪問更新模型參數。隨後,全部者聚合用戶參數更改,再統一進行更新。
Federated learning 分散數據獲取和模型訓練
谷歌使用 Federated learning 訓練其移動鍵盤預測模型 Gboard
人才供給: Element AI 預計全球有 22000 名 AI 研究者和工程師擁有博士學位
全球僅有 3000 名可用的 AI 人才勞動力;亞洲市場緊追西方市場;中國同業互查公開發表數量超過美國。
Element AI 預計全球有 5000 名高級 AI 研究者
美國是全球 AI 人才的溫牀,崗位空缺 10k,是人才交流最集中的地方
人才分佈:衆所周知,谷歌是最大的 AI 人才僱主
2017 年 ICML 6.3% 的論文的做者來自谷歌 /DeepMind
今年 ICML 論文做者來自谷歌 /DeepMind 的論文數量相比 2017 年翻了一倍
2017 ICML 谷歌貢獻的論文最多
在 NIPS 大會,谷歌 &DeepMind 論文做者數量佔主導
需求:機器學習工程師薪水持續上漲
據《紐約時報》報道,通常來講,剛出校門的博士生或有若干年工做經驗但教育水平低於博士的 AI 專家年薪能夠達到 30 萬 -50 萬美圓,或經過持有公司股票可能獲得更高的薪水。
「在 DeepMind,員工規模擴大到 400 名,成本達到 1.38 億美圓,每名員工成本約爲 34500 美圓。」
「OpenAI 2016 年爲研究負責人 Ilya Sutskever 支付了 190 萬美圓的薪酬,爲 Ian Goodfellow 支付的薪酬超過 80 萬美圓。」
據百度前主管 Thomas Liang 估計,AI 行業薪資水平較 2014 年翻了一倍。
天文賠償價格,訴訟頻發
兩則爭議案例:《谷歌自動駕駛負責人薪酬 1.2 億美圓,他卻投入 Uber 的懷抱》、《Uber 和 Waymo 以 2.4 億美圓達成和解》
機器學習從業人員多樣性:參加 NIPS 會議的女性數量每一年小幅增長
關於 AI 的知識產權集中在 GAFAMBAT(谷歌、蘋果、Facebook、亞馬遜、微軟、百度、阿里巴巴、騰訊)這幾家巨頭公司,它們每一年的研發費用達數十億美圓。
雲服務巨頭正在經過 API 建起各自的城牆
谷歌經過其雲生態投入大量資金宣傳 ML 服務,亞馬遜、谷歌等公司也在作着一樣的事情...
谷歌 TensorFlow 在機器學習框架之戰中勝出,可是戰局變化迅速
這意味着谷歌贏得了開發者的擁護,藉此打造了一條雲服務通道,讓一代開發者和研究人員使用他們的技術並不斷改進。他們的開放戰略也解決了一些潛在的競爭對手。然而,實踐者卻感受到這一領域潛藏巨大的不肯定性。選擇錯誤的框架會產生嚴重的後果,不只包括重構成本。
目前,醫藥行業的發展進程慢且價格昂貴。
在醫療行業,機器學習可用於開發新葯,或者改變現有藥物的用途。
在保健行業,機器學習可用於醫療成像、液體活檢等。
預計相關公司產品經過臨牀試驗和監管檢測以後將會採起更多行動。
民衆級監控應用開始在中國興起
中國政府繼續推廣使用計算機視覺監控軟件。2017 年底,中國共有 1.7 億臺閉路監控器。此監控網絡將在 3 年內將增加至 4 億臺。成立 4 年的商湯科技遙遙領先,2018 年 5 月得到 C 輪融資後估值超過 450 億美圓。
在美國,谷歌和 Clarifai 因與五角大樓合做軍事項目 Project Maven 遭到抗議,其中谷歌 4500 多名員工聯合簽署公開信要求谷歌中止該協議。
受劍橋分析公司醜聞事件影響,我的數據隱私問題成爲焦點,數據保護和匿名成爲人們關心的話題。其中歐盟的 GDPR 已於 2018 年 5 月生效,以保護用戶數據隱私。
在數據保護和信息匿名方面,機器學習能夠用於:
人工數據合成:訓練機器學習模型學習源數據的關鍵數據特性,並生成合成數據以保留這些特性。
混淆敏感數據:檢測敏感數據字段並對其進行匿名處理,同時保留敏感數據重要特徵,使機器學習模型仍然能夠學習有用的信息。
隨着微型衛星的發展,部件成本和發射成本下降,向地傳輸架構逐漸完善,衛星數據的成本隨之下降,分辨率和頻率不斷提升。
在衛星數據領域,機器學習可用於保險、金融和農業。
雲計算、移動設備和更多聯網供應鏈意味着網絡攻擊的風險在增長。可是,網絡安全從業人員的缺口卻愈來愈大。機器學習可以以靈活的方式從過去的攻擊中學習,並自動進行處理,節約時間。
在網絡安全領域,機器學習可用於網絡和終端安全、內部威脅檢測。
電商的發展對庫房分揀提出了更高的要求,勞動力和庫房空間的稀缺也促使電商採用更多的機器人。零售商在亞馬遜收購 kiva 以及對該領域的投資以後作出了反應。
在庫房自動化領域,機器學習應用包括機器人、庫房管理系統等。
計算機視覺部件成本下降,技術提升,這意味着機器人的價格將會比各類藍領工人的手工操做成本更低。
機器學習可用於房屋建造、清潔、安保等。
2050 年,全球人口將從 76 億增加值 96 億,糧食產量須要提升 70% 才能知足需求。農場和溫室裏配備機器人、控制系統、聯網設備成爲解決糧食問題的新途徑。
機器學習可用於溫室控制系統、立體農場、農做物和動物健康監測、農做物收割等。
在自動化領域,機器學習可用於共享自動駕駛車輛、最後一千米物流自動化、仿真環境、街道地圖和軟件開發自動化等。
在金融領域,機器學習可用於資產管理、信用貸款、預防詐騙。企業自動化
機器學習可用於機器人處理自動化、文件數字化、軟件開發自動化。
在材料科學領域,機器學習與醫藥行業的應用類似,可用於學習材料科學發現的規律。
根據兩家美國大型調研機構調查結果顯示:
民衆愈來愈意識到自動化對工做的影響,18% 的美國人表示他們知道有人由於自動化失業,薪資或工做時長減小。
年輕人、兼職、西班牙人和美國低收入人羣反映受到影響最大
自動化將引發不公正的擔心愈來愈大
對 AI 的樂觀程度
大部分人認爲 AI 會改善生活
但 AI 也會犧牲隱私
而且 AI 會消滅一些工做崗位
大部分人認爲 AI 是對人類的威脅
應該由政府監管
雖然美國目前仍然是 AI 領頭羊
但中國在 AI 領域將在十年內趕超美國
那麼,美國的勞動力市場實際上有什麼變化呢?調查發現這些變化主要體如今如下幾個方面;
美國自動化程度雖然提升,但失業率卻達 17 年來最低
常規工做發展停滯
工資水平提升落後於工做崗位增加
勞動產量與每小時報酬不成正比
勞動力所得份額穩步降低
工人收入變更幅度加大
可是,自動化在致使美國勞動力市場現狀中起到多大的做用不得而知,關於機器學習對勞動力市場的影響也出現了兩極分化的觀點:其中一種觀點認爲無需擔憂,歷史上科技進步總會創造更多的工做,此次也不例外;另外一種觀點則是憂心忡忡,認爲此次革命與以往不一樣,人類將會創造更多智能,減小薪酬較高的工做,新增的工做崗位數量將少於消失的工做。
隨着 AI 領域競爭的增強,中國、法國、英國、美國、歐盟等相繼制定了國家層面的 AI 發展戰略,AI 國家主義傾向愈來愈明顯。
目前,除了在數據獲取方面,美國在其餘方面均領先於中國。
美國愈來愈多地經過 CFIUS(美國外國投資委員會)來阻止企業收購美國公司。
緣由:雖然中國半導體行業規模比不上美國,但中國半導體年進口額已達 2600 億美圓,而且在不斷收購半導體公司。
將來 12 個月的 8 個預測:
位於中國的實驗室取得重大研究突破。
DeepMind 成功應用 RL 學習在《星際爭霸》遊戲中取得突破性成果。
深度學習繼續仍然是討論的焦點,重大替代方法不會出現。
使用機器學習發現的第一種治療藥物在試驗中產生積極的結果。
總部位於中國和美國的公司收購歐洲機器學習公司的總額超過 50 億美圓。
經合組織國家政府阻止總部位於美國或中國的技術公司收購一家領先的機器學習公司(估值> 1 億美圓)。
爭搶臺灣和韓國半導體公司明顯成爲中美貿易戰的一部分
一家大型研究機構因地緣政治緣由未公開重大研究成果,於是「走向黑暗」
本報告力圖將過去一年內機器學習領域全部值得注意的進步作出彙總,咱們相信,AI 將成爲將來科技發展的強力催化劑,更多地瞭解該領域的變化能夠幫助咱們更好地適應將來的變化。感謝你們的閱讀!
Nathan Benaich (@nathanbenaich),Nathan 畢業於威廉姆斯學院生物學專業,並在劍橋得到計算和實驗癌症生物學博士學位。他創立的公司 Air Street Capital 投資於機器學習技術公司,他仍是 Point Nine Capital 的風險投資合夥人,併成立了 RAAIS 社區和基金會,推進人工智能的發展。
Ian Hogarth(@soundboy),Ian 在劍橋攻讀工程專業,專攻機器學習。他的碩士項目是一個分類乳腺癌活檢圖像的計算機視覺系統。他仍是月用戶達 1700 萬人的音樂會服務公司 Songkick 的聯合創始人兼首席執行官,同時是 30 多家創業公司的天使投資人,投資領域主要爲應用機器學習。
原文連接:
https://www.stateof.ai/