做者 | CDA數據分析師
來源 | 《Data Scientists at Work》
Yann LeCun是全球最大社交網站Facebook的人工智能研究總監。算法
Facebook的核心業務是促進人與人之間、人與人與數字世界之間的溝通。考慮到涉及的數據規模之大,支持這項任務所需的技術是巨大的。截至2014年,Facebook擁有超過13億的活躍用戶(彼此之間的鏈接超過1500億)和8.29億的每日獨立登陸。這些用戶平均天天上傳約3.5億張照片,分享約47.5億項內容,發送約100億條信息。這些流數據集的可用性是如此之大,以致於在大多數狀況下,Facebook的系統只有一次時間查看任何數據。這樣的活動水平帶來了一系列獨特的挑戰:如何最好地理解和理解全部的數據,以及如何使用這種信息關聯來作出決策數據庫
在加入Facebook以前,LeCun是紐約大學計算機科學、神經科學、電子和計算機工程的銀牌教授,如今仍然是紐約大學數據科學中心的創始主任。編程
在多倫多發展理論後,他加入了美國電話電報公司貝爾Laage處理研究部門。2003年加入紐約大學。在他迄今爲止的職業生涯中,他發表了180多篇關於機器學習、計算機視覺、筆跡識別、圖像處理和壓縮以及神經網絡做品的技術論文和書籍章節。他尤爲以他在深度學習方法方面的工做而聞名,這些方法被公司用來理解圖像、視頻、文檔、人機交互和語音。網絡
LeCun是一個無與倫比的數據科學家的例子,他有一個轉型的願景——在他的例子中,使用深度學習來教機器感知世界——他努力在學術和工業研究實驗室實現這一願景。 LeCun的採訪證實了他對機器學習的熱情和對將來的信念,如下爲整理的採訪內容。機器學習
我是Facebook的人工智能研究總監。學習
這個角色的一部分涉及到數據科學,儘管Facebook也有其餘團隊在作數據科學。若是你願意,人工智能研究能夠被認爲是數據科學更先進的一面。我也是紐約大學的兼職教授,就在個人Facebook實驗室對面。雖然我如今是一名大學教授,但個人大部分職業生涯都是在工業研究方面。優化
早些時候,我在貝爾實驗室的一個小組裏工做,當時,這個小組致力於機器學習,神經網絡和相似的項目。而後我成爲AT&T實驗室的部門主管,這是AT&T在1996年公司分裂後的研究實驗室的名字。我2003年加入紐約大學,因此我在這裏已經11年多一點。我是在2013年末加入Facebook的。網站
雖然在我工做過的機構方面沒有明確的途徑,但在我感興趣的技術問題方面有明確的路徑。事實上,我感興趣的是至關恆定的,除了很短的時間。我從小就對人工智能和相關學科很是着迷。上世紀70年代末至80年代初,我讀本科時學的是電氣工程。在這段時間裏,我作了不少項目,試圖弄清楚咱們是否能讓機器學習。我一直堅信,製造智能機器的惟一方法就是學習,由於每一種動物都有學習的能力。任何有大腦的東西都能學習。人工智能
我經過搜索文獻來解決這個問題,尋找可以學習的機器,並意識到,至少在20世紀80年代初,沒有人在研究這類問題。我惟一能找到的文獻是20世紀60年代的,有些是70年代的,但大部分是60年代的。這是上世紀50年代神經網絡1.0版的舊做。像百分率加速器和其餘相似的技術而後是1970年代早期的統計模式識別文獻。但當我開始對這個研究領域感興趣時,這個領域已經被研究團體所拋棄了。這段時間有時被稱爲「神經網絡的寒冬」。spa
我畢業了——儘管個人專業實際上不是機器學習,由於那時尚未機器學習這種東西。事實上,在那個時候的法國,甚至尚未計算機科學。我畢業的專業是VLSI集成電路設計和自動控制。大學畢業後,我上了研究生院。不幸的是,我很難找到對我想作的事情感興趣的人,由於我已經確切地知道我想作什麼。當我還在讀本科的時候,我就已經意識到,早在上世紀60年代,人們一直在追求的東西,卻永遠沒法解決,基本上就是多層神經網絡和深度學習的概念。
也許在我讀研究生的兩年前,我開始嘗試各類算法。我提出了一個最終成爲咱們如今所說的反向傳播算法的東西——咱們天天在Facebook上都在很是很是大規模地使用它——獨立於David Rumelhart, Paul Werbos, David Parker, Geoff Hinton和其餘人。我很難找到研究生院的高年級學生來幫助我,由於這個領域已經被遺棄了。
幸運的是,我有一個很好的顧問,莫里斯·米爾格拉姆,我有本身的資金,基本上是獨立於個人顧問的。個人導師很好,他對我所作的一切都不感興趣,他基本上告訴我,他會簽署這份文件,由於我看起來很聰明,但他幫不了我。
我出生於1960年。在我九歲的時候,火箭飛上了太空,人類登上了月球,《2001太空漫遊》問世了,裏面有太空和智能電腦。科幻小說是那個時代的精神。我一直對科學感興趣。當我仍是個孩子的時候,我想,也但願我能成爲一名科學家。在天體物理學、古生物學、神經科學或人工智能之間,我猶豫了——不幸的是,沒有猶豫很長時間。但我確實是個工程師。這是我爸爸給個人,他是個機械工程師,我喜歡作東西。
因此當我想到作科學的時候,我想到的是:咱們這個時代最大的科學問題是什麼?
一個問題是:宇宙是由什麼構成的?天體物理學和基礎物理學試圖回答這個問題。
另外一個問題是:生活是關於什麼的?哪種生物學,等等。
另外一個問題是:大腦是如何工做的?這個問題是一個很大的科學謎團。
若是你是一名年輕的科學家,尚未意識到本身的侷限性,那就去作大事吧。理解智力是一個很大的問題。
做爲一名工程師,我認爲大腦是一個很是複雜的系統。
智能是一種很是抽象的東西,它可能能夠用數學方法來建模,因此咱們能夠用工程學的方法來弄清楚大腦是如何工做的,經過嘗試建造智能機器來驗證咱們的設計或概念想法。關於大腦是如何工做的,已經說了不少,有些很是抽象。可是在你創建一個真正有效的系統以前,你怎麼知道他們是正確的呢?因此至少你有了大部分必要的成分。這就是我感興趣的科學問題。
固然,我不只要知足我建造東西的慾望,我還必須找到工做,在那裏我能夠開發好的技術和作偉大的工做。這對我來講很奇怪,但我歷來都不清楚我是否會成爲一名學者。我
作過——也許我應該早點作——但長期以來,行業研究對我來講是一種完美的環境。因此我如今又回到這個話題上了,儘管我也涉足學術界,我發現這兩個世界在這方面是互補的。因此我處在一個很是優越的環境中,我能夠在工業上有1.5英尺,在學術上有0.5英尺,這讓我能夠利用二者之間的互補。在學術界,你能夠作像計算神經科學和理論這樣的事情,而在工業界,你能夠作一些在學術界很難作到的雄心勃勃的事情。
我研究的第一個真實數據集是我在作博士研究時使用的醫療數據集,數據集來自於對因腹痛來到急診室的病人進行的醫學研究。事實證實,僅僅根據腹痛來決定是否手術是一個很是困難的診斷。根據腹痛,你能夠作出大約20種不一樣的基本診斷。有些診斷須要很是快的手術,好比闌尾炎。因此當時有一個至關大的數據集,有成千上萬的樣本,有對病人的基本描述,有缺失的值,諸如此類的東西,你會預料到的。
我採訪過的收集這些數據的人都嘗試過樸素貝葉斯和相似的方法。我嘗試了神經網絡。神經網絡還不存在,但我基本上嘗試了這個新奇的東西——反向傳播——我獲得了一些至關不錯的結果。這幫助我想出的想法裁剪系統的體系結構,它將可以識別症狀,這樣的事情,這是集合的症狀,以減小系統中的自由參數的數量,由於咱們知道,甚至在1986年,當時,過分擬合是一個大問題。
關於數據科學的將來,我常常說的是,須要注意的最重要的一點是,收集和存儲的數據量呈指數級增加。它要麼以通訊網絡帶寬增加的速度增加,要麼以硬盤容量增加的速度增加。它老是二者之一,這取決於它是流數據仍是存儲數據。這是一個很是大的指數。目前,當你試圖從數據中提取知識邊緣時,循環中有人類。地球上人類腦力的數量實際上也在呈指數增加,可是指數很是很是小。與數據增加率相比,增加速度很是慢。
這意味着,不可避免的是——事實上,這種狀況已經發生了——地球上已經沒有足夠的腦細胞去觀察或瀏覽這些數據,更不用說分析數據並從中提取知識了。因此很明顯,將來世界上的大部分知識都將被機器提取出來,並將駐留在機器中。實際上可能已是這樣了,這取決於你對知識的定義。對我來講,知識是一些數據的彙編,使你可以作出決定,而咱們今天所發現的是,計算機正在自動作出許多決定。這在將來不會有任何改善。
若是咱們看數據科學的將來,數據科學是不會消失的,科學和現有的工程在從數據中提取知識將是一個將來的大事情,社會要依靠。在某種程度上已是這樣了。網絡已經依賴於此。但整個社會都將依賴於此。因此這不是一時的流行;它不會消失。若是你說數據科學是一種時尚,就像你在1962年說計算機科學是一種時尚同樣。看看咱們如今的處境。
所以,我對這一現象的見解是,它將創造——固然,它創造了一個咱們都知道的產業——對這一領域受過教育的人的需求。這也創造了一種學術學科的須要來處理這個問題。這一點有些人尚未徹底理解。例如,若是你是一名統計學家,你會說,「嗯,那只是統計。若是你是一個機器學習的人,你會說,「嗯,那就是機器學習。」若是你是一個數據庫人員,你會說,「嗯,那只是一個數據庫,上面有一些機器學習和統計數據。」若是你是一個應用數學的人,你會說,「全部這些技術和方法都使用了應用數學。」
全部這些人都錯了。它是全部這些東西組合成一個系統:統計、應用數學、計算、基礎設施和應用領域,這些都是那些方法能夠應用的東西,須要專業知識。所以,像深度學習這樣的技術可讓咱們減小或最小化處理新問題所需的人類專業技能,這樣機器就能夠儘量地本身完成任務。固然,在這一點上,老是有人蔘與其中。像數據可視化這樣的東西使得人們能夠很容易地作這樣的事情,只要循環中還有人。然而,最終,這些模型將從本質上自行構建。
我堅信數據科學是一門新興的學科。在紐約大學,咱們幫助開創了這一趨勢,由於咱們很早就建立了一個數據科學中心。咱們也很早就創立了數據科學碩士學位,這是一個巨大的成功。咱們獲得了摩爾-斯隆數據科學環境倡議的大力支持,這是摩爾和斯隆基金會的一個大型項目。該計劃將紐約大學、華盛頓大學和加州大學伯克利分校聯合起來,目的是將數據科學確立爲科學的一門學科。
我老是給一樣的建議,由於我常常被問到這個問題。
個人觀點是,若是你是一名本科生,學習一門專業,你能夠選修儘量多的數學和物理課程。不幸的是,它必須是正確的課程。我要說的可能聽起來有些矛盾,但工程學或物理學專業可能比數學、計算機科學或經濟學專業更合適。
固然,你須要學習編程,因此你須要上大量的計算機科學課程來學習如何編程的機制。而後,再作一個數據科學的研究生項目。參加本科階段的機器學習、人工智能或計算機視覺課程,由於你須要接觸這些技術。而後,在那以後,參加全部你能參加的數學和物理課程。尤爲是像優化這樣的連續應用數學課程,由於它們讓你爲真正的挑戰作好準備。
若是你是一名實驗科學領域的科學家,尤爲是社會科學領域的科學家,我認爲在數據科學的方法領域和領域科學之間存在着大量的機會。這將給不少科學領域帶來革命性的變化,因此這是一個很是使人興奮的地方,尤爲是在社會科學領域。其餘領域,如基因組學和生物學,已經先行一步。
而社會科學,是一個充滿機遇的大領域。若是人們剛剛開始,我建議他們去尋找一些有趣的、使人興奮的大問題來解決。固然,若是你對方法感興趣,深度學習纔是關鍵。