大數據文摘出品算法
來源:Medium數據庫
編譯:李雷、橡樹_Hiangsug編程
文章解釋了轉型爲數據科學家的緣由,整理了數據科學家應該掌握的技能,着重介紹了從數據分析師轉型爲數據科學家的具體方法。安全
如何從數據分析師華麗轉型,成爲一名數據科學家?比如「把大象裝進冰箱」,成爲「數據科學家」僅需簡單三步:網絡
1. 進入LinkedIn登陸你的帳號。數據結構
2. 點擊「編輯我的資料」。機器學習
3. 將 「數據分析師」這個詞替換爲「數據科學家」。編程語言
搞定,就是這麼簡單!分佈式
理想很豐滿,現實很骨感。在現實生活中,咱們必須認可:培養數據洞察能力絕非易事。工具
入門數據科學早已有許多優秀的博文可供參考,好比如下兩篇:《成爲Jet.com數據分析師的自學之路》和《入門數據科學需掌握的基礎知識》,可是爲數據分析師提供轉型爲數據科學家的方法的文章卻少之又少。
《成爲Jet.com數據分析師的自學之路》:
https://medium.freecodecamp.org/a-path-for-you-to-learn-analytics-and-data-skills-bd48ccde7325
《入門數據科學需掌握的基礎知識》:
https://medium.freecodecamp.org/aspiring-data-scientist-master-these-fundamentals-be7c54350868
《尚學堂大數據課程》:
大數據學習視頻:https://www.shsxt.com/dashujushipin/
能夠免費獲取優秀的大數據學習視頻,還有尚學堂培訓課程免費學習機會
在我開始介紹這條轉型之路前,我仍是想先花些功夫詳細描述一下這兩種職業身份的具體職責。
數據分析師的主要工做是對數據進行收集和處理,並經過統計算法分析已處理的結構化數據,從而爲數據賦能,改良決策。
數據科學家也會進行相似的工做,但對其提出了更高的要求。除上述職責外,一個優秀的數據科學家須要同時具有處理大量非結構化數據的能力,甚至擁有對數據進行實時處理的能力。
他們不只能夠洞悉數據背後的價值,還會對數據進行更深度的清洗和處理,而且用各類各樣的高級算法對數據進行更深層的分析。除此以外,他們還具備很強的敘事能力和數據可視化能力。
我常常會接觸到許多才華橫溢的分析師,他們急切地想要在數據科學界大展拳腳,卻老是找不合適的機會,甚至不知從何入手——而這正是我寫下這篇文章的主要緣由。
影響力:成爲一名數據科學家意味着你將有機會發現和創造巨大的商業價值,發表更高層的決策意見,甚至幫助企業尋找將來的發展方向。
成就感:數據科學是一個飛速發展的領域,其中有許多有趣的問題亟待解決。做爲一名數據科學家,你能夠創建圖像識別系統,開發文本分類器,識別社交媒體上的惡意評價,投身解決一系列還沒有攻克的難題。
前沿性:曾有人預言,人工智能將最終取代人類工做。與其等着本身的工做被人工智能取代,不如主動出擊,追上這一時代的浪潮。
薪酬待遇:也許數據科學家的薪酬還不足以讓你享受開遊艇喝香檳的奢靡生活,但相較於其餘工做已經至關可觀。業界對數據科學家的需求量依舊較大,優秀的數據科學家仍屬高薪稀缺人才。直白來說,爲了更好的明天,努力成爲一名優秀的數據科學家吧!
友情提示:量力而行,切忌盲從,不要被金錢和誘惑矇蔽了雙眼,畢竟貪得無厭沒有好結果(「華爾街之狼」的下場很慘)。
我是否擁有成爲數據科學家的資質?
儘管培養處理棘手的數據結構和(或)大型數據的能力須要數年的經驗積累,但別灰心,實際上大多數分析師在必定程度上已經打下了成爲數據科學家的基礎。換句話說,只要肯下功夫,轉型爲數據科學家沒有想象中那麼困難。
那麼,成爲一名合格的數據科學家到底須要掌握哪些技能?
一個複雜的數據科學項目可能由衆多子項目構成,且項目流程又複雜多變,因此咱們恐怕沒有辦法找到這個問題的標準答案。單就近幾年數據科學的發展來看,成爲一名數據科學家至少須要瞭解如下幾個方面的技能分支:
數據科學語言:Python / R。
關係型數據庫 :MySQL,Postgress。
非關係型數據庫:MongoDB。
機器學習模型:迴歸算法(Regression)、提高決策樹(Boosted Trees)、支持向量機(SVM)、神經網絡(NNs)等。
圖像處理:Neo4J,GraphX
分佈式計算:Hadoop,Spark
雲計算 :GCP / AWS / Azure
API 交互:OAuth,Rest
數據可視化和Web應用:D3,RShiny
專業領域:天然語言處理(NLP),光學字符識別(OCR)和計算機視覺(CV)
Boosted Trees模型在近幾年的數據科學競賽中大放異彩。
RShiny數據儀表盤是一個優秀的交互工具,可供用戶更加直觀地對數據進行探索。
掌握這些技能須要很長時間(可能比完成學位課程的時間還要長),即便是爲咱們熟知的「牛人」們仍在不斷地學習。可是,咱們大可沒必要擔憂本身能力有限,學習知識須要一步步的積累,掌握技能須要一步步的打磨。天天進步一點,總有一天咱們將擁有足夠豐富的知識儲備和高水平的技能迎接將來的挑戰。
智力水平的高低沒法決定咱們是否能夠得到成功,堅決的決心和頑強的意志纔是通往成功的關鍵所在。
在開始行動前,咱們須要掌握一些基本的技能:
樹立正確的信念。或許在十年前,找到一門合適的數據軟件課程可能須要花費數週之久,但時代已變,線上學習材料觸手可及,資源匱乏不再是逃避學習的藉口。咱們必須保持持續學習的能力,不斷爲本身充電,磨練本身的技術。
學習一門編程語言並提高你的數學能力。大多數人都是從學習Python和(或)R開始數據科學之路的,並且Coursera和Udemy等網站上提供了大量相關的免費課程資源。Python用戶喜歡經過Anaconda和Jupyter編程,而R用戶則較多地使用R Studio。就數學計算能力而言,吳恩達(Andrew Ng)的機器學習課程和斯坦福大學的神經網絡課都很適合於轉型人士學習。
動手解決問題。你能夠嘗試在工做中找到所遇到的實際問題,與業務專家和數據工程師展開合做,親自動手解決這些問題——這是最好的端到端開發模式。
參加Kaggle比賽。還有什麼比與數千人同臺競賽更能提高建模技巧呢?Kaggle上的比賽要求十分清晰,提供的數據都已通過清洗,很是值得一試。剛開始不要太在乎比賽的排名,以嘗試的心態開始你的第一場比賽——每一次嘗試都是新的開始。
緊隨領軍人物的動態。有些人喜歡把爲這一領域作出傑出貢獻的人比做「數據科學界的搖滾巨星」,他們的言行和工做很是值得你花時間去了解和學習——時常刷新Geoffrey Hinton,Andrew Ng,Yann LeCun,Rachel Thomas和Jeremy Howard等人的動態,你確定會有所收穫。
高效地工做。在必定工做積累後,嘗試藉助工具提高你的工做效率——使用GitHub等版本控制工具維護和儲存你的代碼,用Docker對你的代碼進行封裝與發佈。
有效地溝通。學會「推銷」本身的工做。高管們老是喜歡「華麗」的項目展現,因此當你在作重要的工做報告時要努力「博眼球」,突出工做的亮點。
Twitter也是另外一種獲取信息的媒介,Rachel Thomas等人的動態十分值得關注。
即便你掌握了世界上全部的技能,若是你的公司沒法提供合適的開發工具,配置相應的開發環境,你也很難施展拳腳。
現實生活中總會有一些不可控的因素阻礙咱們前進的腳步,與其浪費時間糾結於此,咱們更加應該關注那些咱們能夠改變的因素並積極作出行動。
加入新的團隊,這是最簡單可行的轉型方法。大多數中到大型的公司都至少會有一個小型數據科學團隊——別猶豫,加入他們!
與專業人士合做,若是你沒法「跳槽」,那麼就請千方百計找到在你認識範圍內知識最淵博的數據科學家並與之合做。
舉例來講,你能夠在現有的工做中找到可自動化完成的業務流程,而後帶着這一問題找到這方面的專家。但這時千萬不要直接把任務「甩」給這些專家,嘗試與他們合做,加入到問題的解決過程當中來。
搭建數據科學的內部環境,並非全部的公司都肯定它們是否須要數據科學的幫助,或者他們並不知道如何引入數據科學做爲分析工具。
傳統的分析系統已經讓他們忙得不可開交,且開發新數據分析系統所帶來的安全和審計任務都至關耗時,所以他們只接受效益明顯的商業應用方案——這就是你大顯身手的機會,用你的知識儲備爲公司搭建數據科學發展環境,引入合適的數據科學工具,培養內部人員的數據思惟,爲數據科學團隊儲備力量。
開發一個明確的業務用例,你能夠從新審視業務流程,思考如何將數據科學應用到這些業務中,想辦法將數據科學與業務完美融合,藉助業務應用的成功案例爲數據科學的後續發展鋪路。
與有更多技能的人合做,加入多元化的團隊不只能夠幫助你更容易得到更大的成就,你還能夠在合做過程當中學習到其餘成員掌握的知識和擁有的技能。
種一棵樹最好的時間是十年前,其次是如今。珍惜此次機會,立刻開始你的學習之路,從實際問題入手,步步攻克一系列難關。開弓沒有回頭箭,你必須不斷努力,將所有的信心和熱情投入到工做中,你會驚訝地發現原來本身也能夠得到如此高的成就!