摘要:本文介紹數據科學求職應該掌握的五個相關項目,以便秋招者對應自身狀況查漏補缺。面試
一年一度的秋招已經打響了發令槍,從去年的薪酬排行來看,算法工程師和數據分析等工做排在前列,不少相關專業的學生一直在自學一些網絡上的公開課並閱讀一些專業書籍,好比「西瓜書」、「花書」等,若是你如今仍然什麼也沒有準備的話,然而還想從事數據科學領域這個彷佛使人望而生畏的工做話,如今就要抓緊補補相關的知識了。在這裏要提示一點,自我完善的知識不要侷限於數據分析相關的知識,還要額外補充下相關領域的知識。另外,簡歷上展現我的技能的最佳方式是使用技能組合的形式,這樣能讓僱主相信你可使用你已經學習的技能。爲了展現這些技能,如下是你應該着重補充的5種數據科學項目組合類型:算法
1.數據清理編程
數據科學家預計在一個新項目的清理數據處理上花費多達80%的時間,這對於團隊來講是一個巨大的代價。若是你能夠證實你在數據清理方面經驗豐富,那麼你將當即變得更有價值。練習這項能力的方法是建立一個數據清理項目,找到一些混亂的數據集並開始進行清理。網絡
若是你使用Python語言進行編程,那麼Pandas是一個很好用的庫,若是你使用R語言編程,那麼你可使用dplyr數據包。你實踐的數據清洗項目應該確保展現如下技能:機器學習
2.探索性數據分析工具
數據科學的另外一個重要方面是探索性數據分析(EDA),這是一個生成問題並用可視化方法對其進行調查的過程。 EDA容許分析人員從數據中得出結論來推進業務影響,它可能包括基於客戶細分的有趣洞察,或基於季節效應的銷售趨勢。一般你能夠經過探索性數據分析來獲得一些有趣的發現。佈局
用於探索性分析的一些有用的Python庫有Pandas和Matplotlib。對於R用戶而言,ggplot2軟件包將會頗有用。你實踐的EDA項目應該顯示如下技能:學習
3.交互式數據可視化測試
交互式數據可視化包括諸如儀表板之類的工具,這些工具對於數據科學團隊以及更多面向業務的最終用戶都是頗有用的。儀表盤容許數據科學團隊進行協做並共同繪製看法。更重要的是,它們爲面向商業的客戶提供了交互式工具,這些人專一於戰略目標而不是技術細節。數據科學項目的交付成果每每以儀表板的形式出現。網站
對於Python用戶而言,Bokeh和Plotly庫是很是適合用來建立儀表板的。而對於R用戶,可使用RStudio的Shiny軟件包。你實踐的儀表板項目應該強調這些重要技能:
4.機器學習
機器學習項目是數據科學產品組合的另外一個重要組成部分。如今,在開始進行一些深度學習項目以前,請保持耐心。不要一開始就構建複雜的機器學習模型,而要堅持從基礎知識開始學起。線性迴歸和邏輯迴歸是很好的開始,這些模型更容易解釋並能清晰地與上層管理人員溝通。此外,我還建議專一於具備業務影響的項目,例如預測客戶流失,欺詐檢測或貸款違約等,這些比預測花型更實用。
若是你是Python用戶,請使用Scikit-Learn學習庫。而對於R用戶,請使用Caret軟件包。你實踐的機器學習項目應該傳達如下技能:
5.溝通
溝通是數據科學的一個重要方面,對於工科人員而言這點尤爲欠缺。可以有效地傳達結果是區分優秀的數據科學家與偉大的數據科學家的重要衡量標準之一。不管你的模型多麼華麗,若是你不能向隊友或顧客解釋它,你都不會獲得他們的支持,就如同對牛彈琴通常。幻燈片和Notebook都是很好的溝通工具,能夠將你的機器學習項目按照項目過程以PPT的形式展現,也可使用Jupyter Notebook或RMarkdown文件進行溝通。
確保瞭解你的目標受衆是誰,向高管呈現的內容與向機器學習專家呈現的內容兩者是徹底不一樣的。確保具有這些技能:
確保在Jupyter筆記本或RMarkdown文件中記錄本身的項目。而後,也可使用Github 免費將這些Markdown文件轉換爲靜態網站。這是向潛在僱主展現我的技能組合的好方法,即GitHub主頁或CSDN博客等。
最後,在求職的道路上請保持積極的態度,做爲應屆生,不要被一次次面試、筆試所擾亂心態,請保持繼續補充知識、練習項目並參加一些競賽等。不要慌張,秋招過去,還有春招,春招過去還有社招,只要你一直努力提高本身,相信最終會有好的結果等着你,但願你可以快樂求職,而且在數據科學領域工做順心。
文章原標題《5 Data Science Projects That Will Get You Hired in 2018》
本文爲雲棲社區原創內容,未經容許不得轉載。