1、本書內容的介紹web
《數據科學家訪談錄》是一本對當前全球最知名的25位數據科學家的深度採訪,而後匯聚成冊的訪談錄,讀者能夠從中學習到這25位數據科學領域的大師的我的經歷及其成長過程,以及在各自的職業生涯所面臨的各類選項時所作出的選擇,具備很高的參考價值。算法
這25位數據科學家大都擁有國外名校的博士學歷文憑,可是大都不想繼續從事科研工做,而是但願可以將本身的科學研究成果應用到現實生活當中,從而讓人們的生活變得更加美好,所以他們大都從學術界走向了工業界,這些大師從學術領域向工業領域轉變的經歷和過程很是值得學習和參考。雖然他們的專業研究領域各不相同,但數據科學這個研究方向把他們聯繫到一塊兒,共同推進了數據科學領域的發展。他們各自所擁有的領域知識以及計算機專業技能,幫助他們在各自的研究應用領域得到豐碩成果,這也從另一個方面驗證了數據科學實際上是一門理論與實踐相結合的科學。數據庫
此外,本書當中這些大師們給出的方法論和經驗也一樣很是值得讀者學習和思考。好比去大公司仍是小公司的問題,Hillary認爲應該是去那些能讓你學到不少東西而且快速成長的公司。再好比作事情是從簡單的開始仍是複雜的作起,DJ認爲作事情要從簡單的開始作起,而後慢慢開始作複雜而又艱難的事情。這樣子作事情就會有一個好的開始,進而一步一步的完成。編程
總的來講,《數據科學家訪談錄》是一本經得起時間考驗的好書,處於各類不一樣階段的人羣均可以從本書當中獲取知識和經驗,並且每次閱讀都會有新的認識和收穫。網絡
2、數據科學的組成機器學習
一、數學相關的基礎知識(85%):異步
1)線性代數編程語言
2)機率論工具
3)微積分oop
4)統計學(工具)
5)機器學習(算法)
二、編程基礎技能(15%):
1)SQL/NoSQL
2)Hadoop/Spark
3)R
4)主流編程語言,好比:C++/Java
5)主流腳本語言,好比:Python
6)Excel
3、數據科學的步驟
一、 獲取數據
經過數據庫、web接口、網絡爬蟲等獲取網絡上的數據(結構化和非結構化數據)。
二、 清洗數據
經過數值化、降維等手段去除數據噪音,實現數據的清洗。
三、 探索數據
在數據清洗工做的基礎上,經過變量分析、處理缺失值、處理離羣值等手段對數據進行初步的探索。
四、 數據建模
在探索數據工做的基礎上,經過數學等工具創建合適的數據模型。有人認爲好的數據模型是數據科學當中最核心的步驟,列出的優先級順序是:高質量的數據>數據規模>好的數據模型。
五、 解釋數據
數據可視化(D三、highcharts),經過可視化的web界面把數據和結論表達出來。
4、數據科學與大數據、人工智能的關係
大數據是一個內涵豐富的詞彙,包含了技術、商業等因素的描繪,而數據科學是做爲一門實實在在的應用科學而存在,是實現大數據應用的基礎應用型學科,人工智能則是在數據科學的基礎之上,向着讓機器或程序有着相似人類智能的方向前進。所以數據科學是實現大數據的工具,是實現人工智能的基礎。
數據科學也是一門理論與實踐相結合的學科,而且有着與其它領域相互結合、共同發展的趨勢。隨着數據科學問題的規模愈來愈大,現代科研和應用更增強調擁有多領域、多學科背景的人進行團隊合做,所以數據科學也有着軟件工程的特徵。
人工智能的基礎是大數據(數據科學),大數據(數據科學)的基礎是雲計算。當前大數據技術已經與人工智能技術緊密結合,讓各類程序和系統更加智能,從而進一步影響咱們的生活。
5、推薦資源
1)《集體智慧編程》
2)kaggle https://www.kaggle.com/,機器學習競賽、編寫和分享代碼的平臺
3)Quora 獲取和分享知識的平臺,相似於知乎
4)吳恩達的機器學習視頻課程,https://www.coursera.org/learn/machine-learning
本文最初發表於異步社區:https://www.epubit.com/selfpublish/article/1281