從本科生到數據科學家,爲啥這個職業門檻高?

參與文末話題討論,每日贈送異步圖書程序員

——異步小編算法

William Chen是Quora的一位數據科學家,在那裏他協助Quora發展壯大,爲這個世界分享知識。在拿到哈佛大學的統計和應用數學雙學位以後,他直接成了一位數據科學家,也是世界上第一批在校期間接受了完整的數據科學課程而且最終在畢業以後直接加入了數據科學領域的學生之一。全職加入Quora以前,他曾經在Quora和Etsy作數據實習生。他很喜歡講述各類與數據有關的故事,而且也在Quora上普遍地分享他的知識。數據庫

William也是《數據科學家訪談錄》的聯合做者之一。編程

您能告訴咱們一些一路走來進入數據科學領域的故事嗎?網絡

在哈佛大學的第一年,我開始想要學習數學,不過最終選擇了Joe Blitzstein的統計110課程。那門課改變了我思考不肯定性問題以及平常事務的方式,同時讓我明白了直覺與溝通的價值。在那門課的影響下,我在第二年將專業轉爲統計學。數據結構

大二的時候,我開始四處尋找實習機會,期待能將本身的一些機率和統計知識用起來。我在當時主要只擁有理論知識,對於應用開發實在知識有限,當時我驚喜於Etsy主動邀請我加入他們公司實習,職位是一名數據分析師。這是我第一次嘗試使用數據來提升公司業務——實習在各個方面都幫助了我成長,磨練了個人技術,讓我成了一個初露頭角的數據科學家。機器學習

Etsy是一個基於數據指標的公司,我可以清楚地看到而且理解Etsy公司的最重要核心業務主要是依賴於A/B測試的一些算法。你們在郵件中頻繁地交流着各類統計知識,而且讓我可以瞭解各類常見技術,知道以數據指標爲業務驅動的科技公司的一些潛在軟肋。異步

Etsy的數據展現效果很漂亮(D3的儀表板和高亮幻燈片桌面)。在那樣一個重視可視化的公司環境下,我自學了ggplot2,開始製做本身的圖片。在那段實習中我學到了不少東西——這是我做爲數據科學家職業的第一步。數據結構和算法

在Etsy的實習結束後,我開始了本身的大三生涯。那一年,我回到哈佛,成了一名統計110課的助教(至關於協助本科生教學的助理)。工具

經過幫助人們解決他們遇到的機率問題,我意識到教授統計學可以幫助我改善個人溝通能力和講故事的能力。這也頗有趣,而且我也更習慣去與別人分享本身的所學。

若是沒有足夠強大的編程知識供你實現本身的統計想法,你能夠作的東西就會受到不少的限制。

大三那一年,我也開始上更多的計算機課程,我意識到了它們在數據科學中的重要做用。若是沒有足夠強大的編程知識供你實現本身的統計想法,你能夠作的東西就會受到不少的限制。我意識到要想成爲一名成功的數據科學家,統計和計算機二者都是不可或缺的,因此我經過上與這二者有關係的課程去嘗試成爲一名統計與計算機交叉領域的專家。

大三的時候,我也申請了一些實習,個人想法就是要使用本身的統計和編程技巧來幫助公司作出更好的決策。我收到了Quora的實習Offer而且接受了它,儘管我當時對於產品依然一無所知。

在Quora,我接觸到更多的代碼庫,學習了更多關於軟件工程的知識。我對本身的項目永遠都很重視,而且也很是勤于思考它們。我接手的項目涉及公司新的增加計劃,我喜歡Quora公司的自由度以及它對於員工的信任態度。我喜歡與他人打交道,也很喜歡那裏的各類產品,因此我決定畢業以後回到Quora作全職工做。

大四時,我繼續研究統計和各類編程工具,而且完成了個人畢業論文。

您在一開始爲何選擇了統計學而不是計算機科學?

我把大量的時間放在統計110和一大堆其餘統計類課程中了——我喜歡這些課程,因此對我來講徹底沒有理由選擇別的專業!

在Etsy公司實習期間,我親眼看到了若是我只能作統計而沒法作編程工做的話,工做能力將是多麼有限。那年夏天,我花了很大力氣學習使用R語言來分析數據。

我在大三和大四兩年,差很少都選擇了相同數目的統計和計算機科學課程。經過選修計算機課程,我能夠更高效地作統計分析。我選擇那些可以讓我更好地應用統計的課程(機器學習、並行編程、網絡開發、數據科學)或者只是由於它們是很是有趣的某些數學課題(數據結構和算法、經濟學和計算機科學)。

個人主要興趣依然是統計,但我很是重視計算機科學,由於它可以讓我作更復雜的分析,生成可視化圖片,同時處理大量的數據,並自動化不少個人工做,這樣我就能夠專一於很是有趣的一些問題了。

我甚至在大四上學期申請了計算機科學的第二學位。我剛好已經知足其畢業要求(這絕對是不當心的)而且足夠去申請第二學位證了,由於我不須要作什麼其餘努力了,只須要作一些文件蓋章工做就好了。

您能夠更多地告訴咱們一些您在實習過程當中遇到的比較棘手的問題嗎?

爲以數據爲中心的科技公司工做的一個使人興奮的事情就是有不少潛在的項目須要你去解決。有不少數據能夠分析,他們歷來沒有足夠多的數據科學家去真正深刻研究其中的全部事情。我在實習期間的主要挑戰,特別是在Quora,就是弄清楚如何考慮本身在作的一堆事情的優先級,尤爲當本身同時在作許多項目的時候。

在Quora,我意識到我沒法在同一時間處理全部事情,這是我在學校裏作事情的方式。我意識到我須要優先考慮對公司影響最大的事情。若是我花了太多時間在某些軟件上,就可能沒有足夠的時間去專一研究那些可能具備更高影響力的增加計劃。

您如何看待人們說「數據科學是數學、統計和計算機科學的交叉學科」?您以爲它們在其中的權重是怎樣的?

我以爲,編程和軟件工程部分很是重要,由於你可能但願本身去實現模型,編寫儀表板,並以一些很新穎的方式去提取數據。你將是負責轉移存儲本身的數據的人。你將成爲擁有端到端和全棧開發能力的人員,完成從提取數據到作成報告、展現給公司看的整個過程。

帕累託原則(Pareto principle)在這裏充分發揮做用。80%的時間都是用於爬取數據、清理數據並編寫代碼進行分析。我在實習期間發現這個說法真的不假(特別在當時我是初入行的人)。出色的編碼知識在這裏尤爲重要,能夠節省大量的時間,讓你也不那麼容易遇到挫敗感。

我要強調的是:獲取數據並肯定如何處理數據須要花費大量的時間,並且這部分一般不須要任何統計知識。這部分大多數都是利用軟件工程技術去清理數據,或者撰寫高效的查詢代碼去數據庫中移動和分析你的數據。編程在這裏真的很重要。

有一件值得一提的有趣的事情是,在數據科學中使用的統計學與你在研究論文中讀到的統計學真的不同。公司對於統計方法的選擇有在速度、可解釋性和可靠性方面的偏向,而不是理論上的天衣無縫。

你越是瞭解統計或者算法的底層機制和原理,你就能夠越好地闡明本身正在作什麼,並與團隊的其餘成員溝通。

雖然公司用到的統計學和數學可能並不複雜,數學和統計學的紮實基本功依然在你須要區分真實洞見和虛假結果的時候顯得很是重要。此外,牢固的基本工和經驗將讓你有更好的直覺去思考如何解決公司中更爲棘手的問題。你可能對於爲何某個指標忽然降低有更好的直覺上的解釋,或更清楚爲何人們忽然選擇了你的產品。

強大的統計數學和數學背景的另外一個好處是對溝通的貢獻。你越是瞭解統計或者算法的底層機制和原理,你就能夠越好地闡明本身正在作什麼,並與團隊的其餘成員溝通。做爲數據科學家,你的大部分工做都是向人們展現你以爲在將來會有重大影響力的成果。溝通對於實現這一點很是重要。

一些數據科學崗位須要很是強大的統計或機器學習背景。由於它們可能須要你去開發feed自動推送或者其餘推薦引擎,或須要你知道如何完成時間序列分析、基本的機器學習技術、線性迴歸和因果推理等問題。有不少種類的數據是須要更高級的統計方法才能完成分析的。

計算機科學、統計學和數學之間的平衡將取決於你的崗位,這是個人觀察結論。

您如何看待目前大部分加入數據科學界的人都擁有博士學位這一現象?

數據科學是如今的一個新領域,招聘者正在尋找有能力成爲數據科學家的人才。由於這是一個全新的領域,不是不少人在這方面有過經驗,因此你必須找到一些可以表徵他們在將來可以勝任這個工做的人才。擁有計算/定量的研究背景的博士們一般是一個很好的選擇,由於他們已經作了大量的研究和數據工做。具備數據處理經驗的博士和碩士生一般已經具有了數據科學界的不少素質:可以快速學習,提出問題,而且具備靈活性。

我認爲公司在將來會開始招聘愈來愈多的本科生去擔當數據科學家的角色,在5~10年內,將有更多符合數據科學這個領域需求的人才出現。哈佛大學有那麼多的二年級學生,他們中確定有人想要成爲數據科學家,例如當時大二的我。我認爲他們也會將這看做一個充滿但願與激動人心的職業方向,我我的也是這麼看的。

具備數據處理經驗的博士和碩士生一般已經具有了數據科學界的不少素質:可以快速學習,提出問題,而且具備靈活性。

目前,有大量MOOC(公開在線課程)提供課程和證書,而世界各地的大學正在提供他們的第一個數據科學課程。例如,哈佛的第一個數據科學課程和第一個預測模型課程在2013——2014學年出現。這些課程對於想要學習數據知識的本科生來講是完美的起點。

若是你想聘用數據科學家,就當下而言恐怕有經驗的人真的很少,那些擁有博士和碩士學位的人是很好的候選人。這種狀況可能會在將來五到十年內改變,由於會有更多的本科生也擁有合格的數據科學技能要求。

如今在Coursera已經有數據科學這個專業方向了,在哈佛,有Joe Blitzstein和Hanspeter Pfister在教授數據科學課程。Joe就是教授那門我所喜好的統計課的教授。

2014年春季,哈佛開設了一個預測建模課程。這是一個專一於Kaggle比賽的課程。這類課程對於想要從事數據領域工做的本科生來講是完美的起點。

若是能夠回到大學的時光,您會把更多的精力放在哪裏?有什麼您以爲當時忽視了的東西?

我認爲我在大學課程選擇方面的最大遺憾是沒有在大一學年選修編程課程。編程在數據科學中如此重要——除非是谷歌或亞馬遜這樣的巨大公司,不然幾乎不會有純粹的不用寫代碼的統計學家職位,由於這些巨大的公司可能須要專門研究統計人員。編程是很是重要的,你不能逃避它。

當談及術語「數據科學」時,不少人擔憂或者聲稱在這個領域有不少炒做,由於它被誇大了。您對這樣的觀點有什麼見解?

如今對於數據科學的炒做確實有點過了,就像雲計算和手機/本地化/社交平臺熱潮同樣。然而,它被誇大並不意味着它並不重要。我認爲在將來幾年,炒做和泡沫將會不復存在,但數據科學的重要性不會。

您認爲數據科學家的需求會隨着軟件工具的優化而漸漸消亡嗎?

就我我的而言,我很喜歡各類新的軟件工具。我認爲數據科學家的工做將在將來幾年內發生變化,由於程序工具會變得愈來愈好。

不過,我不認爲數據科學家的需求將會減小,由於咱們老是須要可以解讀結果的人,並將洞察力提煉成可行的計劃來改善業務。數據科學永遠不缺困難的問題——人們老是須要解釋結果並交流想法。我認爲數據科學就是這樣——它將數據轉化爲可行的結論,用以改善產品和業務。

咱們老是須要可以解讀結果的人,並將洞察力提煉成可行的計劃來改善業務。

軟件工具可能會使某些數據科學家作的工做被淘汰,由於一些創業公司會提供企業級別的全面解決方案,以及將某些數據方面的任務商業化。可是即便使用了新的工具,咱們也依然須要數據科學家去依賴人類智能使用這些工具。您將須要讓您的數據科學家查看結果,並考慮如何直接幫助公司成長。

爲了成爲一名好的數據科學家,須要多學習多少領域內的專業知識?在多大程度上您須要瞭解人們在網上的行爲?這是否會幫助您開發新的產品?

在Quora,我從事了一個涉及理解用戶參與度的項目。鑑於我本身是Quora的狂熱用戶,因此我很努力地去思考這個問題。當你擁有領域知識時,你擁有的一個優點就是,你甚至能夠在查看數據以前,就對你好奇的內容作出更好的假設。而後,你能夠再去查看數據,以得到更好的直覺,瞭解你以前假設對或錯的緣由。領域的專業知識和與之相關的直覺頗有幫助,特別是若是模型很複雜,或者須要將其呈現給內部觀衆時。領域專業知識有助於分享有價值的故事,幫助你解釋產品中人類行爲的驅動因素。這與Kaggle上的一些數據集真的不一樣,那些數據有些甚至沒有給出列名(由於隱私的緣由),致使你不能徹底瞭解你正在分析的數據。

當你擁有領域知識時,你擁有的一個優點就是,你甚至能夠在查看數據以前,就對你好奇的內容作出更好的假設。

在求職的時候,您曾經在量化金融分析師與數據科學之間進行選擇,最終選擇了數據科學,這是爲何呢?作出這個決定是出於什麼考量?

我認爲量化金融工程師和數據科學都是很好的選擇。我很肯定數據科學對我來講是正確的選擇,由於我很樂於看到技術如何改變世界,使一切工做得更好。我以爲我想成爲其中的一部分。我以爲若是想要作到這一點,我須要成爲一個擁有廣大客戶羣體的科技公司中的一員,在那裏我可以幫助它開發一個驅動人們完成某件事情的產品。

我也很是喜歡數據科學中教學和溝通這兩方面——在哈佛大學擔任統計學110助教時,我發現本身很喜歡那份工做。數據科學有不少這樣的教學和溝通。而在量化金融中,你只須要上報你在背後作出來的結果就好了。

我想成爲一些數據理念的傳播者,並說服人們數據是有用的。我以爲科技行業很是有潛力的。對於科技來講,數據是很是新的一個概念,而對於金融來講,數據是一個很陳舊的概念了。可以在數據科學這個領域方興未艾的時候踏足其中,我感到激情澎湃。我想與更多人一塊兒,用技術去讓人們的生活變得更好。

本文摘自《數據科學家訪談錄》


《數據科學家訪談錄》

Carl Shan(單研)等著

點擊封面購買紙書

本書選取世界知名的25位數據科學家進行了深度的訪談,從不一樣的視角和維度,將他們的智慧、經驗、指導和建議凝聚成冊。每一篇訪談都是一次深度的交流,涵蓋了這些數據科學家最初從菜鳥起步,運用各類知識武裝和充實本身,一直到最終成爲一名卓有成效的數據科學家的全過程。

經過閱讀本書中的訪談,能夠造成對數據科學的宏觀認識和了解,更深入地認識和體驗數據科學家的角色,而且從這些前輩的過往經歷中學到寶貴的知識和經驗以應用於自身的成長和事業中。

掃碼購買《數據科學家訪談錄》e讀版電子書,立減20元現金,輸入優惠碼:c4a86b-b ,至關於7.6元購書。


點擊封面購書

今日互動

你所瞭解的數據科學家入行門檻很高嗎?截止時間6月29日17時,留言+轉發本活動到朋友圈,小編將抽獎選出1名讀者贈送紙書1本和2張e讀版20元異步社區代金券,(留言點贊最多的自動得到一張)。

推薦閱讀

2018年5月新書書單(文末福利)

2018年4月新書書單

異步圖書最全Python書單

一份程序員必備的算法書單

第一本Python神經網絡編程圖書

長按二維碼,能夠關注咱們喲

天天與你分享IT好文。

在「異步圖書」後臺回覆「關注」,便可免費得到2000門在線視頻課程

點擊閱讀原文,購買《數據科學家訪談錄》

閱讀原文

相關文章
相關標籤/搜索