AI 前線導讀:「2017 年,大數據把 AI 推向了技術炒做的舞臺正中央,數據科學和機器學習在各行各業開始嶄露頭角。機器學習開始被應用於解決數據分析問題。機器學習、AI 和預測分析成爲 2017 年的熱門話題。咱們見證了基於數據的價值創新,包括數據科學平臺、深度學習和主要幾個廠商提供的機器學習雲服務,還有機器智能、規範性分析、行爲分析和物聯網。面試
2018 年,AI 的發展腳步會加快,這一年將是 AI 技術重生和數據科學得以從新定義的一年。對於雄心勃勃的數據科學家來講,他們如何在與數據科學相關的工做市場中脫穎而出?2018 年會有足夠多的數據科學相關工做嗎?仍是說有可能出現萎縮?接下來,讓咱們來分析一下數據科學的趨勢,並一探如何在將來的大數據和機器學習 /AI 領域得到一份不錯的工做。」算法
編程語言和開發工具數據庫
365 Data Science 收集了來自 LinkedIn 的 1001 數據科學家的信息,發現需求量最大的編程語言爲 R 語言、Python 和 SQL。另外,還要求具有 MATLAB、Java、Scala 和 C/C++ 方面的知識。爲了可以脫穎而出,須要熟練掌握 Weka 和 NumPy 這類工具。編程
機率統計學、應用數學和機器學習算法app
你須要牢固掌握機率統計學,並學習和掌握一些算法,好比樸素貝葉斯、高斯混合模型、隱馬爾可夫模型、混淆矩陣、ROC 曲線、P-Value 等。機器學習
不但要理解這些算法,還要知道它們的工做原理。你須要牢固掌握梯度降低、凸優化、拉各朗日方法論、二次規劃、偏微分方程、求積法等相關算法。編程語言
若是你想找一份高薪的工做,還須要掌握機器學習技術和算法,好比 k-NN、樸素貝葉斯、SVM 和決策森林等。分佈式
分佈式計算和 Unix 工具工具
如今大部分機器學習都須要海量數據,因此你沒法在單臺機器上進行機器學習。因此,你須要用到集羣,須要掌握 Apache Hadoop 和一些雲服務,如 Rackspace、Amazon EC二、Google Cloud Platform、OpenStack 和 Microsoft Azure 等。oop
你還須要掌握各類 Unix 工具,如 cat、grep、find、awk、sed、sort、cut、tr 等。由於機器學習基本上都是在 Unix 系統上運行的,因此須要掌握這些工具,知道它們的做用以及如何使用它們。
查詢語言和 NoSQL 數據庫
傳統關係型數據庫已經老去。除了 Hadoop 以外,你還須要掌握 SQL、Hive 和 Pig,以及 NoSQL 數據庫,如 MongoDB、Casssandra、HBase。
基於 NoSQL 分佈式數據庫的基礎設施已經成爲大數據倉庫的基礎。原先在一箇中心關係型數據庫上須要 20 個小時才能處理完的任務,在一個大型的 Hadoop 集羣上可能只須要 3 分鐘時間。固然,你也可使用 MapReduce、Cloudera、Tarn、PaaS、Chef、Flume 和 ABAP 這些工具。
數據可視化工具
在掌握編程語言和算法的同時,不要忽略了數據可視化的做用。若是沒法讓你本身或別人理解數據,那麼它們就變得毫無心義。數據可視化就是指如何在正確的時間向正確的人展現數據,以便讓他們從中得到價值。主要的數據可視化工具包括:Tableau、QlikView、Someka Heat Maps、FusionCharts、Sisense、Plotly、Highcharts、Datawrapper、D3.js、ggplot 等。
要成爲數據科學家,不必定非要拿到數據科學方面的學位。事實上,你徹底不須要這麼作,這樣作反而不是個好主意。若是你能拿到計算機學位、工程學學位、經濟學學位、數學學位、統計學學位、精算師學位、金融學學位或者天然科學學位(物理、化學或生物)都是能夠的。甚至是人文科學(包括社會科學)也是能夠的。
365 Data Science 的研究代表,20% 的數據科學家擁有計算機學位,19% 擁有統計學或數學背景,19% 主攻經濟和社會科學專業。只有 13% 擁有存粹的數據科學學位。不過不多有大學提供數據科學本科學位,他們大部分都提供了碩士學位。由於該職業是一個新興職業,因此毫無疑問,不少人在本科階段並不會接觸到數據科學。
若是可以繼續深造,拿到數據科學或機器學習 /AI 相關的碩士或博士學位,天然會助你一臂之力,特別是若是你想在世界 500 強公司裏找到一份數據科學家的工做。365 Data Science 研究發現,擁有碩士和博士學位的 1001 數據科學家比例分別是 48% 和 27%。
不過,碩士學位確實不是那麼好拿到的,但若是可以拿到,那絕對是如虎添翼。若是你想從事數據分析工做,但不必定要接觸數據科學和機器學習,那麼碩士學位就不是必需的。你徹底能夠在沒有碩士學位的狀況下得到一份數據分析的工做。不要把數據科學和數據分析混淆起來了。
在實習結束後,有 18% 的人能夠直接進入數據科學領域。因此,若是你已經有了碩士學位,最好先找一個實習崗位,而不是直接繼續讀博。
在現實當中,不多有公司會直接正式招聘應屆的數據科學家。他們大部分人都是從分析員(數據分析、BI 分析)、實習生、IT 專員、軟件工程師和諮詢顧問作起的。只有 2% 的人在一開始就從事數據科學工做。
有意思的是,數據科學家中有 27% 是博士,因此大學天然就成爲培養數據科學家的搖籃,有一些高校學者直接被聘請成爲數據科學家。另外,從事 IT 工做的人比從事顧問工做的人更容易成爲數據科學家,因此紮實的編程功底絕對是個優點。
在某種程度上,大學排名很重要
一組研究數據代表,排名靠前的高校會培養出更多數據科學家。
28% 高收入數據科學家來自世界排名前 50 的高校,不過也有 25% 來自不在排名之列的高校。
因此,這個與學校排名有必定的關係,但不是所有。知識、技術實力和實戰經驗比畢業院校更重要。實際的經驗和良好的編程技能是必需的,而好學校是錦上添花,但不是決定因素。
參加在線教育課程
我參加在線課程有很長一段時間了。爲了得到一份數據科學家的工做,或者爲了拿到數據科學家碩士學位,須要努力自學。
40% 的數據科學家參加過在線教育課程。另外,平均每人得到 3.33 個證書。因此,爲了成爲好的數據科學家,你須要經過參加在線課程、觀看視頻資料和得到 MOOC 證書的方式進行自學。
數據科學都是關於數學、編程和技術。但在現今以數據爲驅動的工做場所,軟技能也是很重要的,如溝通技能、求知慾、創造力、文化智能、情商和商業敏銳度。
求知慾
數據科學的終極目標就是探索,以創新的方式發現新的想法。好的數據科學家受求知慾的驅使,以各類創新的方式探索數據。好的公司不僅是須要那些會回答問題的人,也須要那些善於提問的人。
積極性和激情
有些人可以在學習和工做以外作一些體現本身激情的事情,這些人比較受招聘者的青睞,因此請主動加入一些數據科學項目吧,去解決一些實際的業務難題或作一些調研。創新思惟能力和爲舊問題尋找新方案的能力是區別優秀數據科學家和通常數據科學家的主要依據。
溝通和分析技能以及團隊合做
好的數據科學家是技術團隊和業務團隊之間的粘合劑。做爲數據科學家,你須要成爲好的溝通協調者。
有時候,你要以一種你們都能明白的方式來陳述事實。若是數據分析的結果暗示公司的策略須要發生變化,你須要經過良好的人際關係技能將公司帶向正確的方向。
業務敏銳度
做爲數據科學家,你須要對所在行業有很是深入的認識——行業發展趨勢、客戶的痛點、競爭對手。你要知道公司想要解決什麼樣的業務問題。數據科學家須要知道要解決什麼問題以及如何找出合適的解決方案。深刻了解業務,並可以將其與客戶喜愛、產品生命週期和盈利目標結合在一塊兒,是找到創造性解決方案的關鍵。
不要忘了花點時間爲面試作準備。無論你的技術有多強,面試官總有辦法用一些你不知道的問題把你掃地出門。在面試中,面試官有可能問各類各樣的問題,要求候選人具有很是強的技術功底、很強的抗壓能力、創造性思惟以及很好的溝通能力。面試官會經過各類方式來考察你的你的知識、編程技能和數據建模技能,因此提早作好準備是成功應聘的關鍵。
結論
2018 年,整個行業須要大概 100 萬個數據科學家。人工智能、大數據和物聯網技術被用於挖掘新的業務洞見,據福布斯估計,「在 2020 年以前,它們將從還在沉睡中的同伴那裏每一年偷走 1.2 萬億美圓」。不過,要進入這個領域,要先確保你對統計、編程和數據建模有足夠的熱情,不要盲目隨波逐流或盲目追求高薪資。
但或許你會在其餘領域獲得更好的發展,好比經濟、應用數學或工程領域。首先要肯定數據科學這條路是否是適合本身。2018 年絕對不會讓那些有志在數據科學領域一展身手的人失望。不過仍是那句話,一個具有分析能力的大腦、熟練的編程技能、誠摯的熱情和持續自我提高的毅力將決定你的數據科學家之路會走多遠。