一份關於數據科學家應該具有的技能清單

摘要: 一份關於數據科學職業應該具有的技能清單,包含技術技能與非技術技能,相關的讀者能夠按照該清單逐步完善本身,文末有學習資源連接哦!算法

大數據時代,什麼職業比較吃香?答案能夠從今年的校招薪資列表上知道——算法工程師、人工智能研究員、數據分析等職位。其實這幾個職位有必定的交集,那就是須要處理大量的數據,尤爲是做爲一名數據科學家,主要的工做在處理數據和分析數據上面,也有部分工做與算法工程師和人工智能研究員相重疊,其所佔的優點在於對數據更加敏感。那麼做爲一名數據科學家,應該具有的技能有哪些呢?本文將一窺究竟。數據庫

clipboard.png

1.學歷

數據科學家通常都具備高學歷——88%的數據科學家至少是碩士學位,46%的數據科學家是博士學位,這代表想要成爲一名數據科學家須要很是好的教育背景(知識瞭解深刻)。常見的專業是計算機科學、社會科學、物理科學和統計學。最多見的研究領域是數學和統計(32%),其次是計算機科學(19%)和工程應用(16%)。在攻讀上述學位中學習到的專業知識都將爲您提供處理和分析大數據所需的技能。
在取得學位後就能夠高枕無憂了嗎?答案是否認的,如今是終生學習的時代。事實上,大多數數據科學家在擁有碩士學位或博士學位後,還不斷經過在線訓練以學習如何使用Hadoop或大數據查詢等特殊技能。編程

2.R編程語言

對於數據科學家而言,R語言一般是首選編程語言。R語言是專門爲數據科學需求而設計的,可使用R語言來解決在數據科學中遇到的任何問題。事實上,43%的數據科學家正在使用R語言來解決統計問題。
可是學習R語言時有一個障礙,那就是若是你已經掌握了一門其它編程語言,那學起來是很痛苦的。儘管如此,互聯網上有不少R語言學習資源,例如Simplilearn的數據科學訓練和R編程語言。緩存

技術類技能:計算機科學

3.Python編程
Python語言近來很火,隨着人工智能以及深度學習的發展,Python已經超越Java語言成爲編程中最經常使用的語言。Python也是在數據科學中常見的編碼語言,據調查,40%的受訪者使用Python做爲其主要編程語言。
因爲Python的多功能性,能夠將其用於全部涉及數據科學過程的步驟。好比,Python能夠採用各類格式的數據,而且能夠輕鬆地將SQL表導入到代碼中。此外,還容許建立數據集。服務器

4.Hadoop平臺
CrowdFlower對3490 名領英上註冊的數據科學家進行了一次調查,發現49%的數據科學家將Apache Hadoop列爲第二項重要技能。
做爲一名數據科學家,可能會遇到擁有的數據量超出了系統的內存,或者須要將數據發送到不一樣的服務器的問題,這些問題均可以經過Hadoop解決——使用Hadoop對數據進行分佈式處理。此外,還可使用Hadoop進行數據挖掘、數據過濾、數據採樣和彙總。網絡

5.SQL數據庫/編程
儘管NoSQL和Hadoop已經成爲數據科學的一個重要組成部分,但有些人仍然能夠在SQL中編寫和執行復雜的查詢。SQL(結構化查詢語言)是一種編程語言,能夠執行諸如添加、刪除和從數據庫提取數據等操做,還能夠執行分析功能並轉換數據庫結構。
做爲一名數據科學家,須要精通SQL。這是由於SQL專門設計用於訪問、通訊和處理數據。當使用它來查詢數據庫時,它會提供看法。此外,因爲其簡潔的命令,能夠節省時間並減小執行困難查詢時所需的編程量。框架

6.Apache Spark
Apache Spark正成爲全球最受歡迎的大數據技術。它相似於Hadoop,是一個大數據計算框架。惟一的區別是Spark比Hadoop更快。這是由於Hadoop須要讀取和寫入磁盤,而Spark將其計算緩存在內存中,這相似於機械硬盤與SSD的區別。
Apache Spark專爲數據科學而設計,能更快地運行復雜的算法。當處理大量數據時,它有助於傳播數據處理,從而節省時間。此外,還能處理複雜的非結構化數據集。
Apache Spark的優點在於其速度,利用該平臺使得開展數據科學項目變得很是容易。藉助Apache Spark,能夠執行從數據採集到分佈式計算的分析。機器學習

7.機器學習和人工智能
許多數據科學家並無精通機器學習領域相關知識和技術,好比神經網絡、強化學習、對抗學習等。若是想從數據科學家中脫穎而出的話,須要瞭解機器學習技術,如監督學習、決策樹、邏輯迴歸等,這些技術將幫助你解決基於已有的數據和結果來預測不一樣數據科學問題。
數據科學須要在機器學習的不一樣領域應用技能,Kaggle在其調查中發現,一小部分數據專業人員掌握了高級機器學習技能,如監督學習、無監督學習、時間序列、天然語言處理、異常檢測、計算機視覺、推薦引擎、生存分析、強化學習和對抗學習等。編程語言

8.數據可視化
大數據時代,數據不少很亂,有些原始數據須要翻譯成易於理解的格式。人們天然而然地以圖表的形式展現數據所要表達的意思,「一張圖片賽過千言萬語」。
做爲一名數據科學家,必須可以藉助數據可視化工具(如ggplot、d3.js和Matplottlib以及Tableau)來可視化數據,這些工具能將項目的複雜結果轉換爲易於理解的格式。
數據可視化爲組織提供了直接處理數據的機會,能夠迅速掌握看法,幫助他們抓住新的商業機會並保持領先地位。分佈式

9.非結構化數據
數據科學家可以處理非結構化數據相當重要,非結構化數據是不適合定義爲數據庫的形式,好比視頻、博客文章、客戶評論、社交媒體文章、視頻文件、音頻等,對這些類型的數據進行排序很困難。
因爲非結構化數據的複雜性,大多數人將非結構化數據稱爲「黑暗分析(dark analytics)」。使用非結構化數據有助於揭示對決策制定有用的看法。做爲數據科學家,必須有能力理解和操縱非結構化數據。

非技術類技能

10.好奇心
我沒有特殊的才能,我只是充滿了好奇心——愛因斯坦。
好奇心能夠被定義爲渴望得到更多的知識,做爲一名數據科學家,須要可以提出有關數據的問題,由於數據科學家將大約80%的時間用於發現和準備數據。因爲數據科學領域是一個發展很是迅速的領域,必須學習更多知識以保持不落伍。
經過在線閱讀內容並閱讀關於數據科學趨勢的相關書籍來按期更新知識,不要被互聯網上的大量數據所淹沒,必須可以知道如何理解這一切。好奇心是做爲數據科學家取得成功所需的技能之一。例如,第一次看到收集到的數據時,不知道這些數據有什麼意義。但好奇心將幫助你篩選數據以找到答案和更多看法。這就像兩我的相親同樣,只有當你對另外一方感到好奇時,纔會深刻的瞭解下去。

11.商業頭腦
要成爲一名數據科學家,須要對所從事的行業有深刻的瞭解,並瞭解公司正在努力解決的業務問題。在數據科學方面,除了找出業務應該利用其數據的新方式以外,可以辨別哪些問題對於解決業務問題相當重要。
爲了作到這一點,必須瞭解要解決的問題會如何影響業務,這就是爲何須要了解企業的運做方式,以便可以朝正確的方向努力。

12.溝通能力
一些公司正在尋找具備很好溝通能力的數據科學家,他們可以清晰流利地將技術發現傳遞給非技術團隊的人員,好比市場營銷部門或銷售部門。數據科學家除了理解非技術同事的需求以便適當地調整數據外,還必須作出相關的決定。
除了說同一種語言外,還須要使用數據以講故事的方式交流。做爲一名數據科學家,必須知道如何建立一個圍繞數據的故事情節,以方便任何人都能理解。例如,呈現數據表格不如以故事形式分享這些數據的看法。講故事能夠幫助你將你的發現與僱主正確溝通。
溝通時,請注意分析數據的結果,大多數企業主並不想知道你分析的具體內容,而是對如何積極影響其業務感興趣。學會專一於提供價值並經過溝通創建持久的關係。

13.團隊合做
數據科學家不可能單打獨鬥,而是不得不與公司高管合做制定策略、與產品經理和設計師合做創造更好的產品、與營銷人員一塊兒推出更好的轉換活動、與客戶端和服務器軟件開發人員共同建立數據管道並改善工做流程。數據科學家必須與組織中的每一個人一塊兒工做,包括客戶。
從本質上講,數據科學家將與團隊成員合做開發用例,以瞭解解決問題所需的業務目標和數據。須要知道解決用例的正確方法、解決問題所需的數據以及如何將結果呈現爲所涉及的每一個人均可以輕鬆理解的內容。

資源
1.Advance Degree:更多的數據科學計劃正在涌現,以知足當前的需求,大多數是數學、統計學和計算機科學課程;
2.MOOCs:Coursera、Udacity和codeacademy等公開課網站是不錯的起點;
3.Certifications:KDnuggets編制的一份清單列表;
4.Bootcamps:有關如何將這種方法與學位課程或MOOC進行比較的更多信息,請查看Datascope Analytics的數據科學家的博客;
5.Kaggle:Kaggle是舉辦數據科學競賽的平臺,能夠在上面練手提高本身的技能,並解決實際的業務問題;
6.LinkedIn羣組:加入相關羣組,並與數據科學社區的其餘成員進行交流;
7.Data Science Central和KDnuggets:Data Science Central和KDnuggets是保持數據科學行業趨勢最前沿的優秀資源;
8.Burtch工做研究(數據科學家的薪水):若是想了解更多有關當前數據科學家的薪水和人口統計信息,請務必下載數據科學家薪水調查。

做者信息
本文由阿里云云棲社區組織翻譯。
文章原標題《9 Must-have skills you need to become a Data Scientist, updated》,譯者:海棠,審校:Uncle_LLD。
原文連接

本文爲雲棲社區原創內容,未經容許不得轉載

相關文章
相關標籤/搜索