我的簡介:Will Kurt是Quick Sprout的數據科學家。他的興趣是機率論、寫做和Haskell。他的博客地址是CountBayesie.com,或經過@willkurt在Twitter上與他聯繫。面試
對我來講,把創造力和好奇心這兩種心態結合起來最重要。在創業公司裏,天天不一樣職能領域都會出現各類新問題。這個月你可能在幫產品團隊添加新功能,下個月就有可能幫銷售團隊改善銷售流程,再下個月,又有可能幫營銷團隊重組測試設置。最理想的求職者要對公司裏全部與數據相關的問題都感興趣,能不斷思考各類類型的數據解決方案。算法
根據個人經驗,全部值得效力的小公司和創業公司都對數據科學家的加入感到開心。他們但願新人的數據科學技能和經驗能解決一直以來讓人頭疼的問題。搞清楚面試問題,和他們一塊兒解決問題,調動他們的興奮點。抓住機會詢問他們在解決什麼問題,讓他們和你一塊兒頭腦風暴,找出解決問題的方法,證實你有能力讓他們的日子更好過。要知道,技術高超的求職者不少,可是關心應聘公司的問題,對之感興趣的人不多。讓面試你的每一個人都喜歡和你一塊兒工做,他們就得求着你入職了。編程
我關心的是求職者想問題的思路。在Kissmetrics,我提出過一次開放式「家庭做業」任務。這個任務很簡單,構建一個分類器就能夠了,我和求職者說了這一點,不過,我還告訴他們,我還想經過這個測試看看他們能不能搞點標新立異的東西出來。這個任務的答案不必定很長,或很複雜。我想要的是,求職者要進行交流,表現出好奇心,找出有價值的東西。數據結構
這些求職者都會編程,對線性代數、微積分和機率論也很瞭解,具備學習相關知識的基礎,技術歷來都不是問題,可是教他們創造性思惟,讓他們積極主動地解決問題就很是困難了。架構
目前,Quick Sprout團隊很小,處在產品開發的早期階段,暫時不須要招聘數據科學家。不過,有經驗的人應該知道許多創業公司或小公司一直都在招數據科學家,只是由於招聘過程太浪費精力,因此暫時沒有開始正式的招聘工做而已。我在Kissmetrics遇到過一我的,他是我見過的最讚的求職者,有一天,他跑到公司門口,跟咱們說:「我想來大家這裏工做!」。機器學習
學術界或大公司的人可能不知道創業公司和小公司的招聘有多靈活。若是你認爲一家公司的業務很酷,就他們聯繫。對於一幫熱愛本身事業的人來講,告訴他們你喜歡他們乾的事,真心想加入他們的團隊,沒有什麼比這個更讓人印象深入的了。就算這家公司暫時不打算招人,等他們開始招聘的時候,你確定會是第一人選。編程語言
我的簡介:Matt Fornito是數據科學家與技術帶頭人,他在數據研究、數據分析和管理領域有十多年的經驗。學習精神和敬業熱情使得他不斷成長進步。這篇訪談根據和Matt的電話記錄整理。工具
我喜歡招聘有量化知識背景的人,他們能夠學習編程,可是不用再學這些專業知識了。對我來講,碩士或博士學位很是重要,本科生達不到個人要求,考個本科對大多數人來講都不是什麼難事。我喜歡招聘能編程、會溝通的人,能明白技術問題是制定、執行方案和溝通想法的關鍵。我認爲,數據科學家和數據分析師的主要差異就在於,數據科學家能深入理解數據問題,還知道怎麼解決這些問題。oop
我還喜歡招聘數學、統計學、化學,物理學、生物信息學和工程學專業的碩士或博士。只有少數MBA專業的人和能我配合好。其實我本人是組織心理學專業的博士,因此,儘管我喜歡有STEM(科學、技術、工程、數學英文首字母縮寫)背景的人,但也不必定非得侷限於這些專業。學習
招聘人員在乎的是教育程度、簡歷上列出的最後兩份工做,還有行業背景。人力資源的人看簡歷很是快,所以,求職者必須在幾秒鐘內吸引住他們的眼球。條件容許的話,我建議最好去Facebook這樣的一流大公司工做,或者去創業公司當個高管,這種行業背景能讓人輕鬆地脫穎而出,找到高端數據科學工做。
對於「給我講講你作過的項目」這樣的問題,招聘經理常常會問求職者曾經作過什麼 — 處理過什麼樣的數據,使用過什麼樣的工具,產出了什麼樣的成果,說清楚這些問題十分重要。成功的求職者對作過的工做把握的很準,能清晰地講述項目經歷,還能說清楚他們對業務產生的影響。
面試時,我通常會圍繞一個項目測試求職者解決問題的能力和溝通技巧。我還會評估求職者對咱們公司和數據科學的熱情。有堅持學習的動力、熱衷於解決問題是我考察的關鍵。在技術方面,我對能用Hadoop和Spark優化數據結構,能評估各類數據科學解決方案的求職者感興趣。他們能不能像數據科學家同樣思考問題?作沒作過數據科學工做?這些都是我但願經過面試瞭解的主要問題。
我還會問些數學問題,好比,梯度降低、統計技巧,還有隨機森林。我還會設計情景問題,提出客戶情景假設,瞭解求職者如何與客戶交互。求職者最好會用Python或R編程,固然會C ++或Java也能夠。我不太喜歡HackerRank這種追蹤解決方案的方式;我寧願測試求職者對從未用過的編程語言的接受程度,以及快速學習的能力。我招聘的人必須能學習新技能,這是我考察的重點。
我的簡介:Andrew具備7年的數據分析與數據科學工做經驗,在不一樣行業分別擔任過各類數據科學角色。現任Penske傳媒公司的數據科學家,專門負責數據工程架構與應用業務分析工做。此前,他曾在谷歌(市場分析、數據質量)、埃森哲創新分析中心(顧問),還有怡安創新分析中心(產品開發團隊)工做。
除了技術、經驗這些基本要求,我以爲具備不斷學習新事物的激情、意願和能力是關鍵。
態度端正也很重要,若是求職者能把本身的優缺點都說清楚,我以爲這樣就很好,我不喜歡太能吹的人,謙虛纔是美德。
親和、開放和真誠是「團隊匹配」的關鍵。求職者不用什麼都懂,但要能和其餘人一塊兒工做尋找解決方案,這點很是重要。
對於技術問題,要多花點心思,寫清楚解答思路,還有就是必定要把面試問題搞清楚。另外,有問題就問,別懼怕告訴面試官沒接觸過某些領域,或者不熟悉某些算法,他們不會由於這個就篩掉你。做爲數據科學家,認可本身知識有限很是重要,堅持學習纔是最重要的能力。
準備兩到三個數據科學項目的「故事」,和麪試官聊聊問題規劃、數據清洗、數據分析、數據可視化,以及與各部門溝通數據洞察結果的事情。處理好技術宅男與業務大拿之間的平衡,表現出對業務的深入看法。這些「故事」能夠是之前公司裏幹過的工做,上大學時的做業,甚至還能夠是業餘作過的項目。要學會從面試官提出的問題裏找到機會,把話題引到本身的經歷上,用具體例子和實戰經驗證實本身。
我發現瞭解求職者最好的辦法是讓他們詳細介紹之前作過的項目,因此,必定要想辦法讓面試官對你在簡歷上提到的項目感興趣,願意主動了解你作過的事情。
處理過最大、最複雜的數據集是什麼樣的?處理數據時遇到過什麼問題?我通常會探討這些問題,瞭解求職者的數據清洗技能與經驗。
舉例說明,如何分析數據集?如何與業務方溝通分析結果?數據分析時遇到過哪些問題?產出了什麼成果?對業務產生了什麼影響?要說明提取業務洞察和與相關方溝通等方面。
個人問題主要和簡歷相關,要是問之前工做中作過的項目,我會問解決過什麼問題,使用過哪些數據,怎麼使用數據,分析結果是什麼,怎麼把分析結果擴展到其它業務領域。因此,必定要謹慎選擇在簡歷上寫的內容。若是以爲內容太多,兩頁紙寫不完的話,就得考慮針對不一樣類型的崗位定製不一樣的簡歷。
最後,我會讓求職者講個失敗的例子,說說什麼地方作錯了,之後碰見相似事情怎麼改進。這個問題是我從《人力資源百問百答》裏看到的,不過我也喜歡看求職者如何回答這個問題 :)
我以爲都差很少,總的來講仍是看具體崗位。要是很是專業的崗位,好比研發崗或研究員,問的技術問題就會更細,對專業領域問題也會鑽得更深。對於通用崗或業務崗,主要關注技術水平、業務理解力、團隊配合度以及溝通能力的合理搭配。
谷歌與其它公司最大的不一樣就是面試次數多,面試官的人數也多,至少有6我的參與面試,從各個方面考察求職者。這些人會從不一樣角度評判求職者的優缺點,並且必須綜合考量求職者的能力和水平,給出是否贊成招聘的結論。表現出良好的綜合能力,比偏科要好的多。這時候,求職者的態度和親和力很是重要,就算在某些方面有短板,只要面試官欣賞你,以爲你能在幾個月內快速跟進,工做就有戲了。
我的簡歷:Hristo Gyoshev是MasterClass公司的商務運營戰略部主管。MasterClass是一家快速發展的創業公司,致力於普及天才教育、重塑在線教育。他曾在消費型網站(雅虎)和企業級SaaS公司從事公司戰略、商務運營及產品戰略等工做。MasterClass長期招聘數據科學家和相關崗位,詳情可登陸careers.masterclass.com查看。
咱們要找的是核心人才,目標人選要對各種數據項目有強烈的慾望,無論是量化市場研究、用戶調研,仍是統計與商務智能分析都要可以勝任。他們還要樂於學習,遇到瓶頸時,能積極推進項目的進展。
要說教育背景與工做經驗,咱們但願求職者首先要有足夠的統計學知識,能判斷統計推斷是否有效,能識別而且避免誤差;第二點是,要有滿世界採集數據的能力,採集回來的數據基本上都有一大堆問題,他們還要有意願、有能力處理這些數據,並分析出可行的洞察結果。
求職者要有強大的量化分析背景,能用Excel、SQL、Python或R處理和分析數據,還要有社會科學以及市場/用戶研究的經驗(學術或工做經驗均可以),進行商務分析和撰寫數據報告的經驗也是必須的,我心目中的求職者要具有這些條件。
儘可能理解面試問題,搞清楚問題背後更高層面的背景知識。面試時,對數據分析、構建模型的考覈,通常都源於公司但願求職者能幫咱們解決特定的問題。有時你會發現你解決不了這些問題,有時你恰巧能提出更好地建議。若是一開始就能清楚地理解咱們這些「客戶」到底要分析什麼,你給出的分析、模型或產品就會更切題。一旦應聘成功,面試時問到的這些問題極可能就是平常要作的工做。
咱們想了解求職者之前都幹過哪些類型的工做,看看這些工做經歷和咱們招聘的崗位是否相關。咱們還會了解求職者之前作過的項目,讓他們講講解決問題的方法、思路、用過的工具、遇到過什麼難題,還有就是怎麼解決這些問題。
咱們還會讓求職者作些小項目,看他們怎麼處理特定的問題,固然,這也是爲了考察他們的工做質量。
和其它公司相比,咱們不多用到機器學習和算法,數據清洗的工做也很少,主要是圍繞公司的產品、業務和運營部門,爲他們提供各類分析決策支持。工做內容主要包括導入、處理、分析來自不一樣系統的數據,構建各類預測模型;設計、實施、分析各類調研與測驗;協助業務部門定義、設計數據報告與指標;爲業務運營等部門作出各類一次性數據分析。
所以,咱們不須要求職者特別熟悉機器學習或算法,但咱們但願他們能熟練掌握數據分析的各方面知識,能處理各類數據分析工做。還有,咱們但願求職者具備學習新工具、新方法的意願和能力。
招聘經理但願求職者可以展現:
1)對該公司的興趣和對數據科學的熱愛;
2)合羣,這點甚至能彌補技術能力不足的弱項;
3)強烈的學習意願,快速學習的能力;
4)以往項目的成功經驗,對項目的影響力;
5)強大的分析能力。
接下來,看一看面試桌的另外一邊,已經當上數據科學家的求職者是怎麼說的。
波音航空信息(加拿大)公司 數據科學家, Springboard學員
首先說一下面試準備,我以爲當初應該多瞭解一下分析策略。當時,我在統計學、機率論、機器學習、Python/R這些技術方面下了很大功夫,結果卻被一個處理指定數據集的問題搞得一籌莫展,這個問題其實不難,但我沒有發揮出正常水平。我太在乎「硬」技能了,沒重視更高層面的方法論和策略。
面試過程太長了。當時我已經猜到會有屢次面試,實際上整個流程下來一共面試了三次,每次面試間隔一個禮拜,再加上背景調查,從開始接觸到拿到Offer一共用了一個月。搞得我壓力山大,整整一個月都要積極應對、保持自信、作好各類面試準備,這但是個不小的挑戰。要是早知道耗這麼長時間,我就能輕鬆點了。我給參加漫長、多重面試的朋友的建議是,冥想是個好東西。冥想能讓你晚上睡個好覺,還可讓你面試前保持冷靜和自信。
Reddit公司 數據分析師,Springboard學員
我以爲吧,面試前應該多看點兒統計學基礎。有點傻了吧,不過面試官動不動就是I型錯誤、II型錯誤這些東西。看本身的時間吧,要我說最好找本兒統計學的書,起碼把裏面的名詞都給搞清楚嘍。
真不是我說,面試那會兒我都驚了,這幫兄弟評估項目經驗的水平真不咋樣。一說幹過的項目,就會問利息值,數據分析說的事兒真那麼有趣兒嗎?^4。就沒人能問點兒有噔次的問題。
我還幹過點兒效果不錯的事兒。其中一件事兒是我整了個倍兒easy的可視化實例項目,就是上傳到GitHub內種,不過您可別就只上傳一個Readme文件,那就漏了怯了。這個項目不必定多花哨兒,能跑起來就成,比方說,我這個項目就是個霧霾預測地圖。搞點這種東西,在找工做時能頂很多事兒。
另外一個事兒就是跟面試官要數據集,回家完成測試任務。我不知道您水平有多高,不過就說我本身,固然還有很多非科班兒出身的哥們兒,都對現場數據分析灰常頭疼。反正我沒那本事。但,我知道這會兒該怎麼辦,我會跟面試官說,您能多給我點兒時間嗎,我回家琢磨琢磨,確定能把這個問題搞定了。
Feedzai公司 數據科學家,Springboard講師
我以爲最難的問題是理解主流的監督與非監督學習算法如何運行,還要用簡潔的語言進行說明。掌握好數據科學術語是關鍵。求職者還得全面瞭解精確度指標和各類評估方法,好比,訓練測試集、ROC曲線、交叉驗證什麼的。更麻煩的是讓你把這些問題在白板上用數學方法寫出來。
必須。。。很是順利!基本上我面試就跟和同事聊天同樣,沒以爲有什麼壓力。我應聘的公司效率很高,一個禮拜就搞定了整個流程。還有一點是,就算有些公司沒錄取我,也會很是坦誠地告訴我緣由,這點讓我印象深入。
總的來講,這裏讓我有機會使用各類技術工具,還能夠解決各類之前從未遇到過的問題。我之前的工做主要就是構建模型。數據都是通過預處理,清理好的,作的探索性工做也僅限於使用商用圖形界面工具。我以爲個人數據清洗技能和命令行操做水平在不斷退化,我要到能動手實幹的環境裏歷練。
已經成爲數據科學家的求職者提到的共同點以下:
1)別認爲面試不考基礎知識,最好讀點統計學基礎;
2)準備好應對非技術層面的考覈。除了統計學和編程,面試還會考覈溝通技巧、團隊合做等軟技能;
3)準備自我介紹,包裝本身,說清楚你有多麼熱愛數據科學、掌握了哪些數據科學技能,能夠爲公司帶來什麼樣的獨特價值。說清楚你具有什麼樣的數據科學項目經驗,對項目的貢獻,這些都會幫助你進入面試下一關;
4)要有耐心。數據科學麪試流程通常都比較長,要作好持久戰的準備。
至此,咱們已經講述了數據科學麪試實戰流程的所有內容,下面,看一看面試以後會發生什麼吧。