數據科學求職建議:掌握5種類型的數據科學項目

摘要:本文介紹數據科學求職應該掌握的五個相關項目,以便秋招者對應自身狀況查漏補缺。面試

一年一度的秋招已經打響了發令槍,從去年的薪酬排行來看,算法工程師和數據分析等工做排在前列,不少相關專業的學生一直在自學一些網絡上的公開課並閱讀一些專業書籍,好比「西瓜書」、「花書」等,若是你如今仍然什麼也沒有準備的話,然而還想從事數據科學領域這個彷佛使人望而生畏的工做話,如今就要抓緊補補相關的知識了。在這裏要提示一點,自我完善的知識不要侷限於數據分析相關的知識,還要額外補充下相關領域的知識。另外,簡歷上展現我的技能的最佳方式是使用技能組合的形式,這樣能讓僱主相信你可使用你已經學習的技能。爲了展現這些技能,如下是你應該着重補充的5種數據科學項目組合類型:算法

1.數據清理編程

數據科學家預計在一個新項目的清理數據處理上花費多達80%的時間,這對於團隊來講是一個巨大的代價。若是你能夠證實你在數據清理方面經驗豐富,那麼你將當即變得更有價值。練習這項能力的方法是建立一個數據清理項目,找到一些混亂的數據集並開始進行清理。網絡

圖片描述

若是你使用Python語言進行編程,那麼Pandas是一個很好用的庫,若是你使用R語言編程,那麼你可使用dplyr數據包。你實踐的數據清洗項目應該確保展現如下技能:機器學習

  • 導入數據
  • 加入多個數據集
  • 檢測缺失值
  • 檢測異常
  • 輸入缺失的值
  • 數據質量保證

2.探索性數據分析工具

數據科學的另外一個重要方面是探索性數據分析(EDA),這是一個生成問題並用可視化方法對其進行調查的過程。 EDA容許分析人員從數據中得出結論來推進業務影響,它可能包括基於客戶細分的有趣洞察,或基於季節效應的銷售趨勢。一般你能夠經過探索性數據分析來獲得一些有趣的發現。佈局

圖片描述

用於探索性分析的一些有用的Python庫有Pandas和Matplotlib。對於R用戶而言,ggplot2軟件包將會頗有用。你實踐的EDA項目應該顯示如下技能:學習

  • 可以制定相關的調查問題
  • 識別趨勢
  • 識別變量之間的協變
  • 使用可視化有效地傳達結果(散點圖,直方圖,餅圖等)

3.交互式數據可視化測試

交互式數據可視化包括諸如儀表板之類的工具,這些工具對於數據科學團隊以及更多面向業務的最終用戶都是頗有用的。儀表盤容許數據科學團隊進行協做並共同繪製看法。更重要的是,它們爲面向商業的客戶提供了交互式工具,這些人專一於戰略目標而不是技術細節。數據科學項目的交付成果每每以儀表板的形式出現。網站

圖片描述

對於Python用戶而言,Bokeh和Plotly庫是很是適合用來建立儀表板的。而對於R用戶,可使用RStudio的Shiny軟件包。你實踐的儀表板項目應該強調這些重要技能:

  • 包括與客戶需求相關的指標
  • 建立有用的功能邏輯佈局(易於掃描的「F模式」)
  • 建立最佳刷新率
  • 生成報告或其餘自動操做

4.機器學習

機器學習項目是數據科學產品組合的另外一個重要組成部分。如今,在開始進行一些深度學習項目以前,請保持耐心。不要一開始就構建複雜的機器學習模型,而要堅持從基礎知識開始學起。線性迴歸和邏輯迴歸是很好的開始,這些模型更容易解釋並能清晰地與上層管理人員溝通。此外,我還建議專一於具備業務影響的項目,例如預測客戶流失,欺詐檢測或貸款違約等,這些比預測花型更實用。

圖片描述

若是你是Python用戶,請使用Scikit-Learn學習庫。而對於R用戶,請使用Caret軟件包。你實踐的機器學習項目應該傳達如下技能:

  • 選擇使用某個具體機器學習模型的緣由
  • 將數據分紅訓練/測試集(k-fold交叉驗證)以免過分擬合
  • 選擇正確的評估指標(AUC、adj-R ^ 二、混淆矩陣等)
  • 特徵工程和選擇
  • 超參數調整

5.溝通

溝通是數據科學的一個重要方面,對於工科人員而言這點尤爲欠缺。可以有效地傳達結果是區分優秀的數據科學家與偉大的數據科學家的重要衡量標準之一。不管你的模型多麼華麗,若是你不能向隊友或顧客解釋它,你都不會獲得他們的支持,就如同對牛彈琴通常。幻燈片和Notebook都是很好的溝通工具,能夠將你的機器學習項目按照項目過程以PPT的形式展現,也可使用Jupyter Notebook或RMarkdown文件進行溝通。

圖片描述

確保瞭解你的目標受衆是誰,向高管呈現的內容與向機器學習專家呈現的內容兩者是徹底不一樣的。確保具有這些技能:

  • 瞭解目標受衆
  • 提供相關的可視化
  • 幻燈片不要寫太多的內容
  • 確保演示文稿流暢
  • 將結果與業務影響聯繫起來(下降成本,增長收入)

確保在Jupyter筆記本或RMarkdown文件中記錄本身的項目。而後,也可使用Github 免費將這些Markdown文件轉換爲靜態網站。這是向潛在僱主展現我的技能組合的好方法,即GitHub主頁或CSDN博客等。

最後,在求職的道路上請保持積極的態度,做爲應屆生,不要被一次次面試、筆試所擾亂心態,請保持繼續補充知識、練習項目並參加一些競賽等。不要慌張,秋招過去,還有春招,春招過去還有社招,只要你一直努力提高本身,相信最終會有好的結果等着你,但願你可以快樂求職,而且在數據科學領域工做順心。

文章原標題《5 Data Science Projects That Will Get You Hired in 2018》

原文連接

本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索