假設展開講,這個問題可以寫一篇綜述了。近期恰好有空。打算認真寫寫。php
1、數據科學家的起源
html
"數據科學"(DataScience)起初叫"datalogy "。python
最初在1966年由Peter Naur提出。用來取代"計算機科學"(丹麥人。2005年圖靈獎得主,丹麥的計算機學會的正式名稱就叫Danish Society of Datalogy。他是這個學會的第一任主席。Algol 60是不少後來的程序設計語言,包含今天那些不可缺乏的軟件project工具的原型。git
圖靈獎被以爲是「計算科學界的諾貝爾獎」。)github
1996年,International Federation of Classification Societies (IFCS)國際會議召開。數據科學一詞首次出現在會議(Data Science, classification, and related methods)標題裏。算法
1998年,C.F. Jeff Wu作出題爲「統計學=數據科學嗎? 的演講,建議統計更名數據的科學統計數據的科學家。 (吳教授於1987年得到COPSS獎。2000年在臺灣被選爲中研院院士。2004年做爲第一位統計學者當選美國國家project院院士。也是第一位華人統計學者獲此殊榮。spring
)數據庫
2002年,國際科學理事會:數據委員會科學和技術(CODATA)開始出版數據科學雜誌。編程
2003年。美國哥倫比亞大學開始公佈數據科學雜誌,主要內容涵蓋統計方法和定量研究中的應用。網絡
2005年,美國國家科學委員會發表了"Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century",當中給出數據科學家的定義:
"the information and computer scientists, database and software and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection"
信息科學與計算機科學家,數據庫和軟件project師,領域專家。策展人和標註專家。圖書管理員。檔案員等數字數據管理收集者都以可成爲數據科學家。它們主要任務是:"進行富有創造性的查詢和分析。"
2、數據科學家的定義
數據科學(Data Science)是從數據中提取知識的研究。關鍵是科學。數據科學集成了多種領域的不一樣元素。包含信號處理,數學,機率模型技術和理論,機器學習,計算機編程。統計學。數據project,模式識別和學習。可視化,不肯定性建模。數據倉庫,以及從數據中析取規律和產品的高性能計算。數據科學並不侷限於大數據,但是數據量的擴大誠然使得數據科學的地位愈加重要。
數據科學的從業者被稱爲數據科學家。數據科學家經過精深的專業知識在某些科學學科解決複雜的數據問題。不遠的未來。數據科學家們需要精通一門、兩門甚至多門學科,同一時候使用數學,統計學和計算機科學的生產要素展開工做。因此數據科學家就如同一個team。
之前投資過Facebook,LinkedIn的格雷洛克風險投資公司把數據科學家描寫敘述成「能夠管理和洞察數據的人」。
在IBM的站點上,數據科學家的角色被形容成「一半分析師,一半藝術家」。他們表明了商業或數據分析這個角色的一個進化。
for example – a data scientist will most likely explore and examine data from multiple disparate sources. The data scientist will sift through all incoming data with the goal of discovering a previously hidden insight, which in turn can provide a competitive advantage or address a pressing business problem. A data scientist does not simply collect and report on data, but also looks at it from many angles, determines what it means, then recommends ways to apply the data.
2006年的6月份進入商務社交站點LinkedIn,當時LinkedIn僅僅有不到800萬用戶。高德曼在以後的研究中創造出新的模型。利用數據預測注冊用戶的人際網絡。
詳細來說,他以用戶在LinkedIn的我的資料。來找到和這些信息最匹配的三我的,並以推薦的形式顯示在用戶的使用頁面上——這也就是咱們熟悉的"你可能認識的人(People you may know)"。
這個小小的功能讓LinkedIn添加了數百萬的新的頁面點擊量(數據挖掘的應用典型之中的一個推薦系統)。
數據科學家是project師和統計學家的結合體。從事這個職位要求極強的駕馭和管理海量數據的能力;同一時候也需要有像統計學家同樣萃取、分析數據價值的本事。兩者缺一不可。
數據科學家是具備極強分析能力和對統計和數學有很是深研究的數據project師。他們能從商業信息等其它複雜且海量的數據庫中洞察新趨勢。
所有的科學家都是數據學家。因爲他們成天都在和海量數據打交道。在我眼中,數據學家是一半黑客加一半分析師。他們經過數據創建看待事物的新維度。數據學家必須能夠用一僅僅眼睛發現新世界,用還有一僅僅眼睛質疑本身的發現。
我是bitly 首席科學家Hilary Mason的忠實崇拜者。關於這個新概念的定義我也想引用她的說法:數據科學家是能夠利用各類信息獲取方式、統計學原理和機器的學習能力對其掌握的數據進行收集、去噪、分析並解讀的角色。
雖然數據科學家這個名稱近期才開始在硅谷出現,但這個新職業的產生倒是基於人類上百年對數據分析的不斷積累和衍生。
和數據科學家最接近的職業應該是統計學家,僅僅只是統計學家是一個成熟的定義且服務領域基本侷限於政府和學界。數據科學家把統計學的精髓帶到了不少其它的行業和領域。
假設從廣義的角度講,從事數據處理、加工、分析等工做的數據科學家、數據架構師和數據project師都可以籠統地稱爲數據科學家。而從狹義的角度講,那些具備數據分析能力。精通各種算法,直接處理數據的人員才幹夠稱爲數據科學家。
最後引用Thomas H. Davenport(埃森哲戰略變革研究院主任) 和 D.J. Patil(美國科學促進會科學與技術政策研究員,爲美國國防部服務)的話來總結數據科學家需要具有的能力:
(問題轉化能力)
(表現溝通能力)
(決策力)
3、數據科學家所需硬件技能
(1) 計算機科學
通常來講。數據科學家大多要求具有編程、計算機科學相關的專業背景。簡單來講,就是對處理大數據所必需的Hadoop、Mahout等大規模並行處理技術與機器學習相關的技能。
(2) 數學、統計、數據挖掘等
除了數學、統計方面的素質以外,還需要具有使用SPSS、SAS等主流統計分析軟件的技能。當中,面向統計分析的開源編程語言及其執行環境「R」近期備受矚目。R的強項不只在於其包括了豐富的統計分析庫,而且具有將結果進行可視化的高品質圖表生成功能。並可以經過簡單的命令來執行。此外,它還具有稱爲CRAN(The Comprehensive R Archive Network)的包擴展機制,經過導入擴展包就可以使用標準狀態下所不支持的函數和數據集。
R語言儘管功能強大,但是學習曲線較爲陡峭,我的建議從python入手,擁有豐富的statistical libraries,NumPy 。SciPy.org 。Python Data Analysis Library。matplotlib: python plotting。
(3) 數據可視化(Visualization)
信息的質量很是大程度上依賴於其表達方式。
對數字羅列所組成的數據中所包括的意義進行分析,開發Web原型。使用外部API將圖表、地圖、Dashboard等其它服務統一塊兒來,從而使分析結果可視化,這是對於數據科學家來講十分重要的技能之中的一個。
(4) 跨界爲王
麥肯錫以爲將來需要不少其它的「translators」,能夠在IT技術,數據分析和商業決策之間架起一座橋樑的複合型人才是最被人需要的。
」translators「能夠驅動整個數據分析戰略的設計和運行。同一時候鏈接的IT 。數據分析和業務部門的團隊。假設缺乏「translators「。即便擁有高端的數據分析策略和工具方法也是於事無補的。
The data strategists’combination of IT knowledge and experience making business decisions makes them well suited to define the data requirements for high-value business analytics. Data scientists combine deep analytics expertise with IT know-how to develop sophisticated models and algorithms. Analytic consultants combine practical business knowledge with analytics experience to zero in on high-impact opportunities for analytics.
天才的」translators「很罕見。但是你們可以各敬其職(三個臭皮匠臭死諸葛亮),數據戰略家可以使用IT知識和經驗來制定商業決策,數據科學家可以結合對專業知識的深刻理解使用IT技術開發複雜的模型和算法。分析顧問可以結合實際的業務知識與分析經驗聚焦下一個行業爆點。
推薦關注:https://www.facebook.com/data4、數據科學家的培養
位於伊利諾伊州芝加哥郊外埃文斯頓市的美國名牌私立大學——西北大學(Northwestern University),就是當中之中的一個。西北大學決定從2012年9月起在其project學院下成立一個主攻大數據分析課程的分析學研究生院,並開始了招生工做。
西北大學對於成立該研究生院是這樣解釋的:「儘管僅僅要具有一些Hadoop和Cassandra的基本知識就很是easy找到工做,但擁有深刻知識的人才倒是十分缺少的。」
此外,該研究生院的課程計劃以「傳授和指導將業務引向成功的技能,培養能夠領導項目團隊的優秀分析師」爲目標,授課內容在數學、統計學的基礎上,融合了尖端計算機project學和數據分析。
課程估計將涵蓋分析領域中基本的三種數據分析方法:預測分析、描寫敘述分析(商業智能和數據挖掘)和規範分析(優化和模擬),詳細內容例如如下。
(1) 秋學期
* 數據挖掘相關的統計方法(多元Logistic迴歸分析、非線性迴歸分析、判別分析等)
* 定量方法(時間軸分析、機率模型、優化)
* 決策分析(多目的決策分析、決策樹、影響圖、敏感性分析)
* 樹立競爭優點的分析(經過項目和成功案例學習主要的分析理念)
(2) 冬學期
* 數據庫入門(數據模型、數據庫設計)
* 預測分析(時間軸分析、主成分分析、非參數迴歸、統計流程控制)
* 數據管理(ETL(Extract、Transform、Load)、數據治理、管理責任、元數據)
* 優化與啓示(整數計劃法、非線性計劃法、局部探索法、超啓示(模擬退火、遺傳算法))
(3) 春學期
* 大數據分析(非結構化數據概念的學習、MapReduce技術、大數據分析方法)
* 數據挖掘(聚類(k-means法、切割法)、關聯性規則、因子分析、存活時間分析)
* 其它。下面任選兩門(社交網絡、文本分析、Web分析、財務分析、服務業中的分析、能源、健康醫療、供應鏈管理、綜合營銷溝通中的機率模型)
(4) 秋學期
* 風險分析與運營分析的計算機模擬
* 軟件層面的分析學(組織層面的分析課題、IT與業務用戶、變革管理、數據課題、結果的展示與傳達方法)
Data Science and Big Data Analytics Training,收費T_T。你們可以瞭解下學習路徑)
(EMC的在線課程:
需要必定的數據基礎。
5、數據科學家的前景
EMC - Leading Cloud Computing, Big Data, and Trusted IT Solutions,關於數據科學家的研究)
(EMC預測,依照眼下的狀況數字宇宙以每兩年一番的速度倍增,在2020年將到達44ZB(1ZB=1.1805916207174113e+21B)。
EMC作出了5點比較大膽的預測。
EMC預測在2017年左右新興的市場將超越成熟市場,東亞國家是最具潛力的引爆點。(你們是否是有點小激動,前景一片光明)
[1].Data Scientists: The Definition of Sexy
[2].《大數據的衝擊》. 城田真琴. 野村綜合研究所創新開發部高級研究員、IT分析師,日本政府「智能雲計算研究會」智囊團成員
[3].麥肯錫. Big data: The next frontier for innovation, competition, and productivity
[4].EMC. Executive Summary: Data Growth, Business Opportunities, and the IT Imperatives
[5].EMC Greenplum's Steven Hillion on What Is a Data Scientist?
[6].LinkedIn's Monica Rogati On "What Is A Data Scientist?"
[7].IBM - What is a Data Scientist?
[8].Data Science and Prediction
[9].The key word in 「Data Science」 is not Data, it is Science
[10].Data Science: How do I become a data scientist?
[11].A Practical Intro to Data Science
[12].解碼數據科學家