很久沒有更新讀書系列的文章了,今天推薦的這本《深刻淺出數據分析》是一本很是適合數據分析行業入門的讀物,以章回小說的方式由淺入深地講述數據分析從業人員要用到的方法,從實際案例出發,告別晦澀難懂的概念。文章末尾有關於這本書的知識圖譜總結。數據庫
深刻淺出系列,同系列的還有《深刻淺出統計學》、《深刻淺出Python》、《深刻淺出SQL》等,固然這本書讀完之後強烈建議接着讀《深刻淺出統計學》,加深對數據分析和統計學的理解和鞏固。微信
做者:[美] Michael Milton
豆瓣評分:7.5
出版日期:2012年
推薦指數:5顆星
ide
第一章講述了數據分析的流程,從提出問題到作出決策,中間的過程具體到每一步,和咱們如今一直在強調的流程其實大差不差,數據是無處不在的,如何將原始數據轉變成推動工做的妙策,這是數據分析師們努力的目標。函數
這一章以一個咖啡店銷量降低爲引子,找出緣由並給出提升銷量的方法。這裏用到了統計與分析最基本的比較法和觀察法,分析出引發銷量降低的緣由,同時對各類策略進行實驗,找出最有效的策略。工具
不少時候咱們想要最大限度地達到目標,就須要最優化的思路,這一章通篇都在講述如何實現最優化問題,經過構建目標函數,並繪製圖形,獲得可行區域,其實就是高中數學的知識點,只不過這本書裏將它講的更加細化,它是假設讀者幾乎沒有什麼數學基礎來寫的這本書,因此在讀的過程當中,你會發現其實一個很明瞭的數學公式他都要講半天,這樣的好處是,當初可能我只是死記硬背了公式,但如今我能夠看到它背後的原理。
優化
當咱們須要用複雜多變的數據來預測將來時,不能只着眼於眼前表面的數據,而要經過仔細推理,評估大量備選答案,假設檢驗最核心的仍是證僞法,經過數據分析的整理,評估備選答案,整合信息。這本書裏關於假設檢驗的講解比較淺白了,目的是讓你們理解假設檢驗在實際案例中的應用,若是想要更深刻地理解,仍是要閱讀《深刻淺出統計學》這本書。spa
貝葉斯規則是利用基礎機率和波動數據解決直接機率問題的方法,這裏也引伸出了一個強相關的知識點:條件機率,機率的問題從咱們上學起就一直在學,但它真的運用到實際生活中究竟是怎樣的呢?這本書裏舉的人們患某種流感的陰性、陽性、假陰性、假陽性的機率的例子就很通俗易懂,也很符合當下實際。
orm
下一章主觀機率(信念數字化),看標題也很好理解了,主觀機率就是將嚴謹融入直覺的簡便方法,其實這一章主要講的是如何利用標準誤差評估數據分佈,以及如何修正主觀機率。blog
後面幾章開始講解直方圖的製做、經過迴歸分析法預測某些結果值、指出預測的偏差範圍以及關係型數據庫的基本概念。其中一個預測加薪幅度的例子簡明扼要地講解了相關性、散點圖、迴歸線、外插法、殘差、迴歸線的均方根偏差等概念,最後作出了一個比較完美的加薪模型。
圖片
這本書裏用到的工具主要是Excel和R,這本書很厚,有48萬字,但可讀性很強,由於都是以實際案例開頭,講述一個概念,我的以爲挺適合想要轉行的文科生閱讀的,我也作了一個本書知識點的總結的思惟導圖,以下圖所示:(圖片可能被壓縮,如需高清大圖請加我微信:data_cola)