下一代技術：李飛飛靠它打造Cloud AutoML，吳恩達力挺

時間 2019-12-02

原文原文鏈接

本文由「AI前線」原創，原文連接：下一代技術：李飛飛靠它打造Cloud AutoML，吳恩達力挺
編輯 & 策劃｜Natalie
編譯｜姚佳靈、Debra

AI 前線導讀：」 遷移學習是想要實現全民玩 AI 的谷歌 Cloud AutoML 背後的核心技術，也是吳恩達在 NIPS 2016 上力推的機器學習商業化又一利器，那麼你對遷移學習足夠了解嗎？谷歌官方說的「不用寫代碼的遷移學習」真的有那麼好用？你不知道其實微軟早在 8 個月前就推出了一樣的服務 Custom Vision 吧？今天咱們就來嘮一嘮這個潛在的下一代潮流技術，還有今天刷屏的 Cloud AutoML。」算法

今天谷歌推出 Cloud AutoML、旨在實現全民玩 AI 的消息又刷爆了全部科技媒體頭條和全部人的朋友圈。凌晨時分，李飛飛連發三條推特，發佈了谷歌最新 AI 產品——Cloud AutoML Vision，「無需精通機器學習，每一個人都能用這款 AI 產品定製機器學習模型。」網絡

AutoML Vision 是 Cloud AutoML 這個大項目推出的第一項服務，提供自定義圖像識別系統自動開發服務。根據谷歌介紹，即便是沒有機器學習專業知識的的小白，只需瞭解模型基本概念，就能借這項服務輕鬆搭建定製化的圖像識別模型。 只需在系統中上傳本身的標籤數據，就能獲得一個訓練好的機器學習模型。整個過程，從導入數據到標記到模型訓練，均可以經過拖放式界面完成。架構

除了圖像識別，谷歌將來還計劃將 AutoML 服務拓展到翻譯、視頻和天然語言處理等領域。機器學習

是否是超厲害！是否是棒棒噠！是否是以爲小白能夠翻身吊打機器學習工程師了！等等，先別激動，這事確實挺棒的，但事情可能沒有你想象的那麼簡單。工具

AI 前線注意到了谷歌官方博客中提到的 Cloud AutoML 背後的核心技術——遷移學習（Transfer Learning）。經過遷移學習，谷歌就能將已訓練完成的模型（又叫預訓練模型，Pre-trained models），轉移到新的模型訓練過程，從而用較少許數據訓練出機器學習模型，而 Cloud AutoML Vision 藉助的預訓練模型，正是「又大又好」的圖像數據集 ImageNet 和 CIFAR。此外，谷歌還經過 learning2learn 功能自動挑選適合的模型，搭配超參數調整技術（Hyperparameter tuning technologies）自動調整參數。性能

無獨有偶，在去年的 NIPS 2016 講座上，吳恩達也表示：「在監督學習以後，遷移學習將引領下一波機器學習技術商業化浪潮。」學習

那麼，有了遷移學習做爲核心技術，Cloud AutoML 會成爲下一個機器學習大殺器嗎？測試

專家觀點大數據

Cloud AutoML 真的有那麼「震驚！厲害！NB！」嗎？google

AI 前線在知乎上刷到了這麼一個問題「如何評價谷歌剛推出的 Cloud AutoML？」，回答者中大多都對微軟表示心疼。其實早在 8 個月以前，微軟就已經發布了幾乎同樣的服務（也不用寫代碼、不用調參數，會拖控件就能幫你訓練深度學習模型）。

答主「grapeot」表示：「真是心疼微軟 pr 部門。我做爲一個軟狗到今天才知道 custom vision 這個東西。google 那邊發佈會都沒開，就發了倆 twitter 媒體就轟動了。高下立判，高下立判啊！」也有答主調侃谷歌是一家「超一流的廣告公司」。

因而 AI 前線也就「谷歌的 Cloud AutoML 到底有多厲害？」等一系列問題諮詢了幾位業界技術專家，獲得的答覆很有點回味無窮。

來自 IBM 的專家告訴 AI 前線，這仍是個新興的領域，他不認爲短時間內會真正產生落地的影響力和實際效果。神經網絡來訓練神經網絡發展時間不長，因此 Cloud AutoML 的效果還須要經過實踐來進一步檢驗。

另外一位不具名技術專家認爲，Cloud AutoML 目前推出的第一項服務是針對 Vision 的，ImageNet 數據集夠好夠大，因此大多狀況下確實可以遷移出不錯的效果，並且視覺如今屬於比較好作的領域了，若是是 NLP、CTR 這些領域，則要難不少。你們如今有點「谷歌爸爸作的確定都是好的」的心理，不得不說谷歌 PR 能力確實厲害。 固然，經過遷移學習實現 AutoML 這件事情自己確實給了從業者很大的想象空間，能夠打破數據孤島，更低成本地解決更多問題，好比用電商的數據去作傳統行業的推薦，或者一個新公司沒有數據但能夠用其餘公司或行業數據來作事情。

谷歌介紹稱 AutoML Vision 提供了簡潔的圖形化用戶界面，只需導入數據和拖拽組件就能打造全新模型，更有媒體報道直接突出「無需寫一行代碼」，那麼真的能夠不用寫代碼嗎？這位專家諱莫如深地告訴 AI 前線：「不寫代碼容易作，不寫代碼能作出好結果難呀。」

第四範式是一家致力於利用機器學習、遷移學習等人工智能技術進行大數據價值提取的公司，而第四範式的聯合創始人、首席科學家楊強教授更是遷移學習領域的奠定人和開拓者，他發表論文 400 餘篇，論文被引用超過三萬次。

此次 Cloud AutoML 推出後，不少讀者也對第四範式怎麼看錶示強烈關切。 所以，AI 前線也將問題拋給了第四範式先知平臺架構師陳迪豪，他對與咱們的問題作了十分詳盡的解答，整理以下：

AI 前線：你以爲谷歌 Cloud AutoML 最大的亮點有哪些？

陳迪豪： Cloud AutoML 最大的亮點是把完整的機器學習工做流作成雲端易用的產品，用戶只須要在界面上拖拽樣本數據就能夠完成數據處理、特徵抽取、模型訓練等全流程，針對圖像分類這個場景在易用性上作到了極致。

AI 前線：谷歌開發 Cloud AutoML 系統的技術難度有多大？

陳迪豪： 目前根據 Cloud AutoML 的介紹，開發一個針對圖像分類的 Cloud AutoML 難度並不大，經過對已經訓練好的 Inception 模型在新數據集上進行 finetune，能夠獲得一個效果不錯的新模型，這部分在 TensorFlow 官方文檔就有介紹，開發者甚至能夠在本地開發出一個「命令行版本的 Cloud AutoML Vision」。固然 Google 在過往的論文也介紹過 Learning to learn 和自動構建神經網絡等算法，這些算法對於樣本規模和計算能力有更高的要求，目前在業界仍處於研究階段。

AI 前線：Cloud AutoML 使用了遷移學習等技術，用戶只要上傳不多的標註數據就能生成本身的模型，卻是很方便，但新模型的效果能有多好？能不能從技術角度解釋一下呢？

陳迪豪： 前面已經提到，CloudML AutoML 並無公開生成模型的算法細節，多是基於 finetune 對模型參數進行調優，或者是用 AutoML 論文的方法從新構建神經網絡模型。目前看使用 finetune 可能性較大，以使用 TensorFlow 對 Inception 模型進行 finetune 爲例，用戶只須要提供很是少許的標註數據便可，首先加載官方在 ImageNet 數據集上訓練完成後獲得的模型參數，而後在新數據集上訓練神經網絡的最後一層，根據 Label 和預測值更新部分的參數，很快就能夠獲得一個準確率超過 90% 的圖像分類模型。固然也不排除 Google 已經使用或者將來將使用 AutoML 論文的算法，使用用戶提供的數據集和 ImageNet 等已經標記好的數據集進行從新訓練模型，模型的參數就是構建神經網絡結構的參數，模型的目標就是找到圖像分類正確率最高的神經網絡結構，從論文的結果看在數據量和計算能力足夠的狀況下，機器訓練獲得的模型與人類設計最頂尖的模型效果接近，若是應用到 Cloud AutoML 場景下效果也不會太差。

AI 前線：你認爲 Cloud AutoML 會給人工智能將來的發展帶來什麼樣的影響？

陳迪豪： Google 的 Cloud AutoML 只是 AutoML 的一種使用場景，在此以前包括微軟、亞馬遜、國內的第四範式等公司都已經有 AutoML 的實際場景了，Cloud AutoML Vision 只是解決了在圖像分類領域更低門檻的建模場景而已，在其餘 State of the art 的機器學習領域並無你們預期的革新式影響。固然 Google Cloud AutoML 的推出迅速引發了國外內對於自動機器學習模型構建的關注，爲 AutoML 的研究和落地提供了強力的背書，相信能推進這個領域在將來有更好的發展。

AI 前線：在你看來，Cloud AutoML 會不會幫谷歌在一衆雲端機器學習服務廠商（微軟 Azure、AWS、IBM 等）中脫穎而出？

陳迪豪： 在我看來目前 Google Cloud AutoML 還不是一個通用場景的機器學習解決方案，並不能可能直接淘汰微軟、亞馬遜等雲機器學習平臺。固然咱們很是期待 Google Cloud 和 Google Brain 部門在 AutoML 後續的工做。隨着 AutoML 算法的成熟和通用化，將來會有更多低門檻、貼近用戶的機器學習建模範式出來，對人工智能行業也是很大的利好。

AI 前線：你所在公司推出的機器學習工具目前推廣狀況如何？將來是否也會計劃推出相似 Cloud AutoML 這樣的服務？或者還有別的比較重要的發展方向？

陳迪豪： 我目前在第四範式擔任先知平臺架構師，在去年烏鎮互聯網大會上發佈的先知 3.0 就已經集成了 AutoML 功能，經過自研的 FeatureGo 自動特徵組合算法和開源的自動調參算法等能夠實現從特徵抽取、特徵組合、模型訓練、超參數調優到模型上線等全機器學習工做流。目前咱們在推薦系統提供給用戶的模型所有以 AutoML 算法生成的。在 TensorFlow 上訓練模型實現 Learning to learn 也是咱們的關注重點，除此以外像大規模的數據拼接、時序特徵抽取、模型灰度發佈、工做流可視化以及自學習閉環都是切實的業務痛點，咱們從算法和產品維度致力於打造一個比 Google Cloud AutoML 更低門檻、而且更落地的機器學習平臺，也歡迎與同行們多多交流。

如下內容節選編譯自知名 AI 博主、愛爾蘭國立大學 NLP 博士生 Sebastian Ruder 標題爲「遷移學習：機器學習的下一個前線」博文：

遷移學習究竟是什麼？

在機器學習經典的監督學習場景中，若是咱們打算爲某個任務和 A 域訓練一個模型，假設咱們爲相同的任務和域提供了標記好的數據。咱們能夠在圖 1 中清楚地看到，對於咱們的模型 A，訓練和測試數據的任務和域是同樣的。稍後，咱們會給出一個任務和一個域的詳細定義。如今，咱們假設一個任務是咱們的模型要執行的目標，好比，在圖片中識別物體；一個域是咱們的數據來源，好比，在舊金山咖啡店拍攝的圖像。

圖 1：機器學習中經典的監督學習的創建

如今，咱們能夠在這個數據集上訓練模型 a，並指望它在相同任務和域的不可見數據上表現良好。在另外一種狀況下，當給定其餘任務或域 B 的數據時，咱們須要再次標記相同任務或域的數據，以便訓練新的模型 B，這樣咱們就能夠指望它在這些數據上表現良好。

當咱們沒有足夠的標記數據爲咱們所關注的要訓練的可靠模型的任務或域時，經典的監督式學習範式就會崩潰。

若是咱們想要訓練一個模型來檢測夜間圖像上的行人，咱們能夠應用一個已經在相似的領域進行過訓練的模型，好比：在日間圖像上用過的。然而在實踐中，因爲模型繼承了訓練數據的誤差，而且不知道如何推廣到新的領域，咱們每每會經歷性能的惡化或模型的崩潰。

若是咱們想要訓練一個模型來執行一個新的任務，好比檢測騎自行車的人，咱們甚至不能重用一個現有的模型，由於任務之間的標記是不一樣的。

遷移學習使咱們可以利用已經存在的某些相關任務或域的標記數據來處理這些場景。咱們嘗試把解決源域任務所得到的知識存儲在源域中，並將其應用於咱們感興趣的問題，如圖 2 所示。

圖 2：遷移學習設置

在實踐中，咱們試圖從源頭轉移儘量多的知識到咱們的目標任務或域中。這種知識的形式由數據決定：它能夠涉及物體是如何組成的，以便咱們更容易識別新物體；能夠是關於人們用來表達本身觀點的通常詞彙等等。

爲何遷移學習這麼重要？

前百度首席科學家、斯坦福大學教授吳恩達（Andrew Ng）曾在廣受歡迎的 NIPS 2016 講座中說過：在監督學習以後，遷移學習將會成爲機器學習商業成功的下一個推進力。

圖 3：Andrew Ng 在 NIPS 2016 講解遷移學習

他特地在白板上畫了一張圖，我儘量忠實地複製成下面的圖 4（很抱歉，我沒有標記座標軸）。據吳恩達介紹，遷移學習將成爲機器學習在行業中取得成功的關鍵因素。

圖 4：Andrew Ng 所介紹的在機器學習行業中取得成功的推進力

毋庸置疑，迄今爲止機器學習在行業中的使用和成功主要是由監督學習推進的。在深度學習的進步、功能更強大的計算工具和大型標記數據集的推進下，監督學習已經從新激發了人們對人工智能的興趣、融資和收購的浪潮，特別是近幾年來，咱們已經看到機器學習的應用成爲咱們平常生活的一部分。若是咱們無視那些反對者和另外一個 AI 冬季的預兆，而是相信 Andrew Ng 的預見，這樣的成功可能會繼續下去。

然而，不太清楚的是，爲何儘管遷移學習已經存在了幾十年，可是目前在行業上的應用仍是不多，將來是否會看到 Andrew Ng 所預測的爆炸性增加呢？甚至，與其餘機器學習領域，如無監督學習和強化學習相比，遷移學習目前受到的相對較少的關注，而那些領域已經愈來愈受到關注：無監督學習——從圖 5 中能夠看出，根據 Yann LeCun 的觀點，它是尋求通用 AI 的關鍵因素—— 已經看到了興趣的復甦，特別受到了生成敵對網絡的推進。

反過來，由谷歌 DeepMind 領頭的強化學習，已經引領了 AlphaGo 的成功，並在現實世界中取得了成功，例如將谷歌的數據中心的冷卻成本下降了 40%。這兩個領域雖然有但願，但在可預見的將來可能只會產生相對較小的商業影響，並且大部分仍停留在尖端研究論文的範圍內，由於它們仍然面臨許多挑戰。

圖 5：在 Yann LeCun 所展現的蛋糕裏，顯然沒有遷移學習。

遷移學習有何特別之處？

接下來，咱們來看看是什麼讓遷移學習有所不一樣。在咱們看來，它們激發了 Andrew Ng 的預見，並概述了爲何如今是關注遷移學習的時候。

目前在行業中對機器學習的應用呈現二元化：

一方面，在過去的幾年裏，咱們已經得到了訓練愈來愈精確的模型的能力。咱們如今處於多任務階段，最早進的模型已經達到了這樣一個水平，它們的性能是如此的好以致於對用戶來講，其再也不是阻礙。有多好呢？在 ImageNet 上最新的殘差網絡（residual networks）實現了在識別對象時超過人類的性能；谷歌的智能回覆可以自動處理 10% 的移動端回覆任務；語音識別錯誤率不斷降低，比打字輸入更準確；咱們能夠像皮膚科醫生同樣自動識別皮膚癌；谷歌的 NMT 系統用於 10 多種翻譯語言對的產生；百度能實時生成逼真的語音；這樣的事情不勝枚舉。這種成熟程度可以將這些模型大規模部署到數百萬用戶，而且已經被普遍採用。
另外一方面，這些成功的模型很是須要數據，而且依靠大量的標記數據來實現其性能。對於某些任務和領域，這些可用數據是多年來一直苦心經營的。在少數狀況下，它是公開的，好比， ImageNet，可是大量的標記數據一般是專有的或昂貴的，好比許多語音或 MT 數據集，由於是它們造成了競爭優點。

與此同時，在不熟悉的環境中應用機器學習模式時，模型面臨着之前從未見過、不知如何處理的諸多狀況；每一個客戶和每一個用戶都有本身的偏好，擁有或產生與用於訓練的數據不一樣的數據；一個模型被要求執行許多與被訓練的任務相關但不相同的任務。在全部這些狀況下，咱們目前最早進的模型，儘管在它們所接受的任務和域上表現出跟人類同樣甚至是超人類的表現，但在性能方面卻會遭受重大損失，甚至徹底崩潰。

遷移學習能夠幫助咱們處理這些新場景，而且這對於哪些標記數據稀缺的任務領域，要使機器學習可以規模化應用，遷移學習是必不可少的。到目前爲止，咱們雖然已經將模型應用到了很多極具影響力的任務領域，但這些大可能是數據「低樹果實」，爲了長遠發展，咱們必須學會將得到的知識轉移到新的任務領域。

遷移學習還有哪些應用場景？

從模擬中學習

我認爲遷移學習在未來會更多地應用於從模擬中學習，這也讓我感到很興奮。對於許多依靠硬件進行交互的機器學習應用程序來講，從現實世界中收集數據和訓練模型不是昂貴、耗時，就是太危險。所以，以其餘風險較小的方式收集數據是比較明智的。

在這方面，模擬是首選工具，並已在實踐中被用於許多先進的機器學習系統。從模擬中學習，將得到的知識應用到實踐是遷移學習的其中一個應用場景。由於源域和目標域之間的特徵空間是相同的（一般二者都依賴於像素），可是模擬和現實場景中的邊界機率分佈不一樣，儘管隨着模擬更接近現實，這種差別逐漸減少，但模擬場景中的物體和來源看起來仍然不一樣。同時，因爲難以徹底模擬現實世界中的全部反應，模擬與現實世界中的條件機率分佈也不盡相同，例如，物理引擎不能徹底模仿現實世界中物體的複雜交互。

圖 6: 谷歌無人駕駛汽車（來源: 谷歌研究院博客）

然而，從模擬中學習也有好處，便可以更輕鬆地收集數據，這是由於模擬學習能夠並行多個學習案例，在輕鬆綁定和分析物體的同時進行快速訓練。所以，對於須要與現實世界進行交互的大型機器學習項目，它能夠做爲首選，好比自動駕駛汽車（參見圖 6）。據谷歌的自動駕駛汽車技術負責人 Zhaoyin Jia 介紹，「若是你真的想作一輛自動駕駛汽車，模擬是必不可少的」。Udacity 已經開源了其用於訓練自動駕駛汽車工程師的納米級模擬器，如圖 7 所示。OpenAI 的 Universe 也有可能會使用 GTA5 或其餘視頻遊戲來訓練自動駕駛汽車。

圖 7：Udacity 的自動駕駛汽車模擬器（來源：TechCrunch）

另外一個模擬學習將發生關鍵做用的應用領域是機器人技術：在一個真正的機器人上訓練模型速度太慢且成本很高。從模擬中學習，並將知識遷移到實踐中的機器人能夠緩解這個問題，而且最近得到了很大的關注 [8]。圖 8 是在現實世界和模擬場景中的數據操做任務示例。

圖 8：機器人和模擬圖像（來源：Rusu 等，2016）

最後，從模擬中學習是通向通用 AI 不可或缺的部分。訓練一個代理直接在現實世界中實現通用人工智能代價太大，而且在初期沒必要要的複雜性會妨礙學習的效果。相反地，基於模擬環境進行學習會事半功倍，如圖 9 中可見的 CommAI-env。

圖 9:Facebook 人工智能研究院的 CommAI-env(來源：Mikolov 等， 2015)

適應新的域

雖然從模擬中學習是領域適應的一個特殊案例，咱們仍是有必要列出一些其餘適應領域的例子。

在計算機視覺方向，領域適應是一個常見的需求，由於標籤上的信息很容易獲取，而咱們真正關心的數據是不一樣的，不管是識別在圖 10 中所示的自行車，仍是在陌生環境中的其餘物體。即便訓練和測試數據看起來並沒有差別，但其中仍然可能包含對人類來講難以察覺，並會致使模型產生過分擬合的細微誤差。

圖 10：不一樣的視覺領域（來源：Sun 等，2016）

另外一個常見的領域適應場景，是適應不一樣的文本類型：標準的 NLP 工具，例如詞類標註器或解析器，一般會使用諸如《華爾街日報》等自古以來就用於評估模型的新聞數據進行訓練。然而，使用新聞數據訓練的模型難以適應更新穎的文本形式，如來自社交媒體的消息。

圖 11：不一樣的文本類型

即便在好比產品評論這樣的一個領域，人們也會用不一樣的詞語來表達一樣的概念。所以，使用一種類型評論的文本的訓練模式應該可以區分該領域的專業詞彙和普通人使用的詞彙，以避免被領域的轉換所迷惑。

圖 12：不一樣的主題

最後，上述問題只是涉及到通常的文本或圖像類型，可是若是將之擴大到與我的或用戶羣體有關的其餘領域，問題就會被放大：好比語音自動識別（ASR）的狀況。語音有望成爲下一個大有可爲的領域，預計到 2020 年，語音搜索的佔比將達 50％。傳統上，大多數 ASR 系統在 Swithboard 數據集上進行評估，該數據集由 500 個說話者構成。標準口音還好，但系統很難理解移民、有口音、有言語障礙的人或兒童的語音。如今咱們比以往任什麼時候候都須要可以知足我的用戶和少數羣體需求的系統，以確保每一個人的聲音都能被理解。

圖 13：不一樣的口音

跨語言的知識遷移

最後，在我看來，遷移學習的另外一殺手級應用，是將從一種語言學習中得到知識應用到另外一種語言，我已經寫過關於跨語言嵌入模型的文章。可靠的跨語言適應方法將使咱們可以利用已擁有的大量英文標籤數據，並將其應用於任何語言，尤爲是不經常使用和數據缺少資源的語言。鑑於目前的最新技術水平，這彷佛仍然是個烏托邦，但 zero-shot 翻譯等取得的最新進展預示着咱們有望在這方面更進一步。

總而言之，遷移學習爲咱們提供了不少激動人心的研究方向，特別是許多須要模型的應用程序，這些模型能夠將知識轉化爲新的任務並適應新的領域。

谷歌的這場 Cloud AutoML 大秀，不論有多少 PR 的成分，只要可以推進遷移學習這一技術方向的發展，就不失爲一件好事。

更多幹貨內容，可關注AI前線，ID：ai-front，後臺回覆「AI」、「TF」、「大數據」可得到《AI前線》系列PDF迷你書和技能圖譜。