進階指南：如何從數據分析師轉型爲數據科學家？

時間 2019-12-04

標籤進階指南如何數據分析師轉型科學家欄目快樂工作简体版

原文原文鏈接

大數據文摘出品算法

來源：Medium數據庫

編譯：李雷、橡樹_Hiangsug編程

文章解釋了轉型爲數據科學家的緣由，整理了數據科學家應該掌握的技能，着重介紹了從數據分析師轉型爲數據科學家的具體方法。安全

如何從數據分析師華麗轉型，成爲一名數據科學家？比如「把大象裝進冰箱」，成爲「數據科學家」僅需簡單三步：網絡

1. 進入LinkedIn登陸你的帳號。數據結構

2. 點擊「編輯我的資料」。機器學習

3. 將「數據分析師」這個詞替換爲「數據科學家」。編程語言

搞定，就是這麼簡單！分佈式

理想很豐滿，現實很骨感。在現實生活中，咱們必須認可：培養數據洞察能力絕非易事。工具

入門數據科學早已有許多優秀的博文可供參考，好比如下兩篇：《成爲Jet.com數據分析師的自學之路》和《入門數據科學需掌握的基礎知識》，可是爲數據分析師提供轉型爲數據科學家的方法的文章卻少之又少。

《成爲Jet.com數據分析師的自學之路》：

https://medium.freecodecamp.org/a-path-for-you-to-learn-analytics-and-data-skills-bd48ccde7325

《入門數據科學需掌握的基礎知識》：

https://medium.freecodecamp.org/aspiring-data-scientist-master-these-fundamentals-be7c54350868

《尚學堂大數據課程》：

大數據學習視頻：https://www.shsxt.com/dashujushipin/

能夠免費獲取優秀的大數據學習視頻，還有尚學堂培訓課程免費學習機會

在我開始介紹這條轉型之路前，我仍是想先花些功夫詳細描述一下這兩種職業身份的具體職責。

數據分析師的主要工做是對數據進行收集和處理，並經過統計算法分析已處理的結構化數據，從而爲數據賦能，改良決策。

數據科學家也會進行相似的工做，但對其提出了更高的要求。除上述職責外，一個優秀的數據科學家須要同時具有處理大量非結構化數據的能力，甚至擁有對數據進行實時處理的能力。

他們不只能夠洞悉數據背後的價值，還會對數據進行更深度的清洗和處理，而且用各類各樣的高級算法對數據進行更深層的分析。除此以外，他們還具備很強的敘事能力和數據可視化能力。

我常常會接觸到許多才華橫溢的分析師，他們急切地想要在數據科學界大展拳腳，卻老是找不合適的機會，甚至不知從何入手——而這正是我寫下這篇文章的主要緣由。

爲何要成爲數據科學家？

影響力：成爲一名數據科學家意味着你將有機會發現和創造巨大的商業價值，發表更高層的決策意見，甚至幫助企業尋找將來的發展方向。

成就感：數據科學是一個飛速發展的領域，其中有許多有趣的問題亟待解決。做爲一名數據科學家，你能夠創建圖像識別系統，開發文本分類器，識別社交媒體上的惡意評價，投身解決一系列還沒有攻克的難題。

前沿性：曾有人預言，人工智能將最終取代人類工做。與其等着本身的工做被人工智能取代，不如主動出擊，追上這一時代的浪潮。

薪酬待遇：也許數據科學家的薪酬還不足以讓你享受開遊艇喝香檳的奢靡生活，但相較於其餘工做已經至關可觀。業界對數據科學家的需求量依舊較大，優秀的數據科學家仍屬高薪稀缺人才。直白來說，爲了更好的明天，努力成爲一名優秀的數據科學家吧！

數據科學——學得多，作得多，但賺得也多！

友情提示：量力而行，切忌盲從，不要被金錢和誘惑矇蔽了雙眼，畢竟貪得無厭沒有好結果（「華爾街之狼」的下場很慘）。

我是否擁有成爲數據科學家的資質？

儘管培養處理棘手的數據結構和（或）大型數據的能力須要數年的經驗積累，但別灰心，實際上大多數分析師在必定程度上已經打下了成爲數據科學家的基礎。換句話說，只要肯下功夫，轉型爲數據科學家沒有想象中那麼困難。

那麼，成爲一名合格的數據科學家到底須要掌握哪些技能？

一個複雜的數據科學項目可能由衆多子項目構成，且項目流程又複雜多變，因此咱們恐怕沒有辦法找到這個問題的標準答案。單就近幾年數據科學的發展來看，成爲一名數據科學家至少須要瞭解如下幾個方面的技能分支：

數據科學語言：Python / R。
關係型數據庫：MySQL，Postgress。
非關係型數據庫：MongoDB。
機器學習模型：迴歸算法（Regression）、提高決策樹（Boosted Trees）、支持向量機（SVM）、神經網絡（NNs）等。
圖像處理：Neo4J，GraphX
分佈式計算：Hadoop，Spark
雲計算：GCP / AWS / Azure
API 交互：OAuth，Rest
數據可視化和Web應用：D3，RShiny
專業領域：天然語言處理（NLP），光學字符識別（OCR）和計算機視覺（CV）

Boosted Trees模型在近幾年的數據科學競賽中大放異彩。

RShiny數據儀表盤是一個優秀的交互工具，可供用戶更加直觀地對數據進行探索。

掌握這些技能須要很長時間（可能比完成學位課程的時間還要長），即便是爲咱們熟知的「牛人」們仍在不斷地學習。可是，咱們大可沒必要擔憂本身能力有限，學習知識須要一步步的積累，掌握技能須要一步步的打磨。天天進步一點，總有一天咱們將擁有足夠豐富的知識儲備和高水平的技能迎接將來的挑戰。

智力水平的高低沒法決定咱們是否能夠得到成功，堅決的決心和頑強的意志纔是通往成功的關鍵所在。

我具體應該怎麼作？

在開始行動前，咱們須要掌握一些基本的技能：

樹立正確的信念。或許在十年前，找到一門合適的數據軟件課程可能須要花費數週之久，但時代已變，線上學習材料觸手可及，資源匱乏不再是逃避學習的藉口。咱們必須保持持續學習的能力，不斷爲本身充電，磨練本身的技術。

學習一門編程語言並提高你的數學能力。大多數人都是從學習Python和（或）R開始數據科學之路的，並且Coursera和Udemy等網站上提供了大量相關的免費課程資源。Python用戶喜歡經過Anaconda和Jupyter編程，而R用戶則較多地使用R Studio。就數學計算能力而言，吳恩達（Andrew Ng）的機器學習課程和斯坦福大學的神經網絡課都很適合於轉型人士學習。

動手解決問題。你能夠嘗試在工做中找到所遇到的實際問題，與業務專家和數據工程師展開合做，親自動手解決這些問題——這是最好的端到端開發模式。

參加Kaggle比賽。還有什麼比與數千人同臺競賽更能提高建模技巧呢？Kaggle上的比賽要求十分清晰，提供的數據都已通過清洗，很是值得一試。剛開始不要太在乎比賽的排名，以嘗試的心態開始你的第一場比賽——每一次嘗試都是新的開始。

緊隨領軍人物的動態。有些人喜歡把爲這一領域作出傑出貢獻的人比做「數據科學界的搖滾巨星」，他們的言行和工做很是值得你花時間去了解和學習——時常刷新Geoffrey Hinton，Andrew Ng，Yann LeCun，Rachel Thomas和Jeremy Howard等人的動態，你確定會有所收穫。

高效地工做。在必定工做積累後，嘗試藉助工具提高你的工做效率——使用GitHub等版本控制工具維護和儲存你的代碼，用Docker對你的代碼進行封裝與發佈。

有效地溝通。學會「推銷」本身的工做。高管們老是喜歡「華麗」的項目展現，因此當你在作重要的工做報告時要努力「博眼球」，突出工做的亮點。

Twitter也是另外一種獲取信息的媒介，Rachel Thomas等人的動態十分值得關注。