編譯 | AI科技大本營(rgznai100)
參與 | 鴿子、Shawn
導語:昨晚谷歌大腦(Google Brain)在Reddit上舉辦了一年一度的在線答疑活動AMA,Google Brain負責人Jeff Dean,Google首席科學家,Google Brain團隊技術負責人Vincent Vanhoucke和其同事熱情地回答了網友們提出的各類問題。AI科技大本營從中選取了一些表明性的問題,經過這些問答你能夠了解如何申請谷歌的實習項目、申請注意事項、申請及面試建議、實習生的平常工做,還有谷歌大腦的大牛們對深度學習等領域將來發展的見解。html
Q:幾個月前我在大家網站上看到一份關於實習項目的申請說明,裏面有說該項目不要求申請人具備很是好的機器學習背景。我是一名生物統計學流行病研究者,主要工做是健康調研,我很想申請這個項目。個人問題是:最終錄取的申請人中有多少人並不是來自機器學習背景,他們的培訓與機器學習研究人員的培訓有什麼不一樣?面試
Jeff Dean(Google Brain):在第一期實習項目的27名實習生中,大約1/3的人具備計算機科學背景,1/3有數學、統計學或應用數學背景,1/3在STEM領域(如神經學、計算生物學等)有深厚的背景。今年錄取的35名實習生狀況也差很少,事實上其中一名實習生仍是一名流行病學博士。幾乎全部實習生都有機器學習方面的經驗,儘管他們從未接受過關於ML的學術培訓。網絡
Q:我有幾個關於谷歌大腦實習項目的問題。第一批實習生來自於多個不一樣的背景:應屆畢業生、經驗豐富的軟件工程師和博士生等,那麼機器學習
這是否意味着每種背景都有相應的錄取配額?例如,經驗豐富的軟件工程師不會與博士生一塊兒競爭實習生資格。分佈式
大家但願在不一樣背景的申請人身上找到什麼樣的特質?在這些背景中,我對應屆畢業生和經驗豐富的軟件工程師背景特別感興趣。函數
下一批申請會在何時開始?如今已經9月了。工具
sallyjesm(Google Brain):咱們並非根據背景或經驗水平挑選必定數量的實習生。今年實習生的背景很是多樣,咱們沒有制定任何特定的配額。咱們看重的是申請人是否具備巨大的研究潛能,是否能在這樣的項目中得到很大的成長。 咱們在申請人身上尋找的是技術能力和研究興趣,而不是特定的資歷。下一批申請將在10月2日開放,於1月初結束。請提交完整的申請材料並提供您以前在GitHub上的連接或者您以前在ML領域的其餘做品。學習
Q:我剛開始讀研究生,並有選修ML方面的課程,我但願參加谷歌大腦實習項目。將來我但願進入ML/AI研究領域(偏重於基礎和理論,應用較少),我以前曾在4家大型公司中擔任實習軟件工程師並進行了ML上的一些應用。我該怎樣作才能增長從此一兩年在谷歌大腦團隊工做的機會?測試
sallyjesm(Google Brain):恭喜你成爲一名研究生!根據我與一些實習生的討論經驗,我認爲在研究生階段親自動手完成項目很是重要。由於有了這樣的經歷,面試就會變得很是有趣,無論是對您仍是對谷歌大腦面試官來講。網站
從實踐角度看,你能夠徹底控制兩個問題:
準備完整的申請材料;
完成申請。請確保向招聘團隊提供所要求的所有材料(例如,避免沒法按時提交所需文件)。若是頭一年申請不成功,請在得到更多經驗後考慮再次申請。
Q:在谷歌大腦團隊工做是什麼體驗?您的平常工做是什麼?你決定某人是否適合您團隊的緣由是什麼?
sara_brain(Google Brain):我是谷歌大腦的一名實習生。今年共招了35名實習生,咱們都在山景城同一區域內工做(可是還有一些實習生在舊金山工做)。天天吃早餐時,我一般會與另外一名實習生討論他們的研究項目。接下來,我會閱讀各類與個人研究領域(卷積神經網絡的透明度)相關的論文,使用TensorFlow編碼,與個人項目導師和合做夥伴開會。谷歌大腦的研究人員很是注重合做,所以我一般會與研究相似問題的研究員一塊兒吃午飯或晚餐。
谷歌大腦的實習平生常還會作一些其餘有趣的事情:訪問學者並進行研究討論(經常會發現之前從未想過的論題,例如將深度學習應用到太空探索中);每兩週實習生們會聚一次(這有助於咱們跟進其餘實習生的研究);學習TensorFlow最新的進步並直接提供反饋;在數千個GPU上運行試驗。
去年的實習生Colin發表了一篇很好的博文,詳細描述了他的實習體驗:http://colinraffel.com/blog/my-year-at-brain.html
Q:你是怎麼進入AI領域和Google的?
alextp(Google Brain):我在本科期間就對機器學習產生了濃厚的興趣,以後我又得到了一個博士學位。我在博士階段曾在Google實習,在這裏工做了幾年後轉入了谷歌大腦。有趣的是,我記得我第一次認真四口機器學習是在一堂數字分析課上,當時咱們正在討論多項式近似值函數插值和外推法;可以被表達爲數字函數的對象有不少,咱們還能夠外推其餘什麼東西?這個問題一會兒迷住了我。那一年晚些時候,我發現了ML這門科學並今後爲之着迷。
Q:你認爲ML領域接下來最大的挑戰是什麼?
Jeff Dean(Google Brain):目前咱們傾向於構建只能完成一個或少數幾個特定任務的機器學習系統(有時候這些任務很是困難,例如將一種語言翻譯成另一種語言)。我認爲咱們真的須要設計這樣一種簡單的機器學習系統:它可以解決數千或數百萬個任務,並能從解決這些任務的過程當中得到經驗,用以學習自動解決新的任務;根據具體任務激活模型上不一樣的模塊。實現這種系統須要解決不少問題。今年早些時候我在斯坦福大學的Scaled ML會議上作了一個演講,我在第80頁以後的幻燈片中提供了一些關於這個想法的材料(第62頁後面有提供一些背景知識)。
Vincent Vanhoucke(Google Brain):使深度網絡穩定地適應來自弱監督數據的在線更新仍然是個大問題。解決這個問題,將使真正的終身學習成爲可能,並使得許多應用程序開放。另外一個巨大的障礙是,像GAN 或Deep RL 這樣領域內最激動人心的發展尚未到達「批量歸一化」的時刻:這個時刻到來以後,一切都默認就「想要訓練」,再也不須要一個超參數一個超參數地調整。
固然,這些進展還不夠成熟,還沒從有趣的研究轉變成咱們能夠依賴的技術。如今,不進行大量的精確微調,就沒法可預測地訓練這些模型,所以很難將它們歸入到更精細的系統中。對這些模型進行可預測的訓練,這致使咱們很難把它們用到更復雜的系統中。
Vincent Vanhoucke(Google Brain):過去10年間大部分機器人開發都有這樣一個前提:機器人不具備任何感知能力。結果,該領域的不少研究都集中於開發在很是受限的環境中工做的機器人。如今咱們掌握了新的計算機視覺「超級能力」,咱們能夠完全顛覆該領域,從新構建一種以感知未知環境和豐富反饋爲中心的機器人系統。深度強化學習做爲一種最有可能的實現方法,它能夠將感知做爲控制反饋循環的中心,可是這種技術離普遍應用還有很長一段距離。
咱們須要搞清如何使它更容易分配獎勵,訓練更可靠,處理樣本的效率更高。我在國際人工智能協會(AAAI)會議上討論了一些這方面的挑戰。如今咱們可讓系統經過學習第三方視覺來進行模仿,用以解決任務分配問題和樣本處理效率問題,對此我感到十分激動。若是你對該領域感興趣,咱們將會直播幾個月內即將召開的首屆機器人學習會議。
Q:大家是否計劃爲ONNX(開放神經網絡交換)交換格式提供支持?若是沒有這方面的計劃,請問爲何?
[1]https://research.fb.com/facebook-and-microsoft-introduce-new-open-ecosystem-for-interchangeable-ai-frameworks/
Jeff Dean(Google Brain):他們幾天前在博客上發表了這篇文章,咱們也是在那時候瞭解到這個消息。若是這種格式有很大用處,我懷疑TensorFlow社區是否會爲它提供支持。2015年11月,咱們發表了開源聲明,自那時起TensorFlow源代碼庫中就有提供咱們保持和恢復模型數據和參數所用的格式。
Q:兩個問題
你們都在談論ML/Al/DL領域取得的成功。您能談談您在嘗試使用DL解決(研究或實際)問題時遇到的一些挫敗或挑戰嗎?最好是在解決大型監督學習任務時遇到的挫敗和挑戰,在此類任務中DL方法一般均可行。
谷歌大腦團隊怎麼看待目前的無監督學習方法?你認爲接下來幾年會出現較大的概念進步嗎?
Vincent Vanhoucke(Google Brain):挫敗:咱們團隊中的幾個同事曾嘗試與Bob Mankoff合做用《紐約客》(New Yorker)雜誌上的漫畫訓練一個神經網絡標題生成器,Bob是該雜誌的漫畫編輯(我剛看到他今年有發表一篇論文)。結果效果不是很好。這個生成器生成的標題一點也很差笑。雖然根據DL標準咱們擁有的數據並不充分,可是咱們能夠用其餘類型的漫畫來預訓練視覺表達。我仍然但願咱們在這方面能夠取得成功,可是也許仍是要用舊方法。
無監督學習:我認爲人們終於意識到自動編碼是個糟糕的想法,無監督學習可行,而監督學習不可行,這二者之間的差別主要在於預測的是具備因果關係的將來(下一個單詞或下一幀)而不是如今(自動編碼)。看到這麼多人開始用咱們去年開源的推送數據集對他們的「將來預測」進行基準測試,我感到很是高興,這確實出乎意料。
Q:大家有沒有試着爲Tensorflow和機器學習創造一種標準的編碼方式和/或方法?人們彷佛使用多種不一樣的方法來編碼模型,有些方法很難解釋。這個問題與第一個問題沒多大關係,Keras將會加入Tensorflow,Learn是否會被淘汰?同一庫有兩種不一樣的高級API彷佛有點奇怪。
wickesbrain(Google Brain):個人建議是最好堅持使用最高級的API來解決問題。這樣的話,你就會自動利用咱們在系統內部做出的改進,你的代碼最不可能在將來過期。
如今咱們有了完整的tf.keras(真正意義上的),咱們正在努力統一Keras應用和先前的TF概念。這項工做立刻就快完成了。咱們的目標是:tf.keras能夠輕易地從一處收集構建一個完整的Keras API spec所需的全部表徵(symbols)。注意,Keras並不適用於全部使用實例,尤爲是分佈式訓練和較爲複雜的模型,這就是爲何咱們使用tf.estimator.Estimator的緣由。咱們會繼續改進Keras與這些工具的結合。
咱們不久以後會開始淘汰部分contrib,包括全部contrib/learn。許多人還在使用這種工具,淘汰它會須要至關的時日,咱們並不想沒必要要地忽然終止人們對它的使用。
Q:大家是怎麼跟進行業最新進展的?具體說的話,大家推薦哪些能夠體現前沿技術進展的雜誌/會議/博客/公司?
Jeff Dean(Google Brain):頂級ML會議上發表的論文;Arix Sanity;谷歌學術(Google Scholar)上的 "My Updates"功能;研究人員指出和討論的有趣論文;Hacker News 或者本subreddit中討論的有趣文章。