1、《數據分析實戰》:html
關於做者
托馬茲·卓巴斯(Tomasz Drabas)是微軟的數據科學家,目前工做於西雅圖。他擁有超過13年的數據分析經驗,行業領域覆蓋高新技術、航空、電信、金融以及諮詢。
2003年,Tomasz得到戰略管理的碩士學位後,從位於波蘭華沙的LOT波蘭航空公司開啓了他的職業生涯。2007年,他前往悉尼,在新南威爾士大學航空學院攻讀運籌學博士學位;他的研究結合了離散選擇模型和航空做業。在悉尼的日子裏,他曾擔任過Beyond Analysis Australia公司的數據分析師,沃達豐和記澳大利亞公司的高級數據分析師/數據科學家,以及其餘職位。他也發表過學術論文,參加過國際會議,而且擔任過學術期刊的審稿人。
2015年,他搬到西雅圖,開始在微軟工做。在這裏他致力於解決高維特徵空間的問題。
git
本書深刻數據分析與建模的世界,使用多種方法、工具及算法,提供了豐富的技巧。
本書第 一部分會講授一些實戰技巧,用於讀取、寫入、清洗、格式化、探索與理解數據;第二部分由一些較深刻的主題組成,好比分類、聚類和預測等。第三部分介紹更高深的主題,從圖論到天然語言處理,到離散選擇模型,再到模擬。
經過閱讀本書,你將學到:
- 使用Pandas與OpenRefine讀取、清洗、轉換與存儲數據
- 使用Pandas與D3.js理解數據,探索變量間的關係
- 使用Pandas、mlpy、NumPy與Statsmodels,應用多種技法,分類、聚類銀行的營銷電話
- 使用Pandas、NumPy與mlpy減小數據集的維度,提取重要的特徵
- 使用NetworkX和Gephi探索社交網絡的交互,用圖論的概念識別出欺詐行爲
- 經過加油站的例子,學習代理人基建模的模擬技術web
第1章講解了利用多種數據格式與數據庫來讀取與寫入數據的過程,以及使用OpenRefine與Python對數據進行清理。算法
《數據分析實戰-托馬茲.卓巴斯》讀書筆記第1章-數據格式與數據交互 數據庫
第2章描述了用於理解數據的多種技巧。咱們會了解如何計算變量的分佈與相關性,並生成多種圖表。網絡
《數據分析實戰-托馬茲.卓巴斯》讀書筆記第2章-變量分佈與相關性、圖表工具
第3章介紹了處理分類問題的種種技巧,從樸素貝葉斯分類器到複雜的神經網絡和隨機樹森林。post
《數據分析實戰-托馬茲.卓巴斯》讀書筆記第3章-從樸素貝葉斯分類器到複雜的神經網絡、隨機樹森林 學習
第4章解釋了多種聚類模型;從最多見的k均值算法開始,一直到高級的BIRCH算法和DBSCAN算法。url
《數據分析實戰-托馬茲.卓巴斯》讀書筆記第4章-聚類技巧(K均值、BIRCH、DBSCAN)
第5章展現了不少降維的技巧,從最知名的主成分分析出發,經由其核版本與隨機化版本,一直講到線性判別分析。
第6章涵蓋了許多回歸模型,有線性的,也有非線性的。咱們還會複習隨機森林和支持向量機,它們可用來解決分類或迴歸問題。
第7章探索瞭如何處理和理解時間序列數據,並創建ARMA模型以及ARIMA模型。
《數據分析實戰-托馬茲.卓巴斯》讀書筆記第7章-時間序列技術(ARMA模型、ARIMA模型)
第8章介紹瞭如何使用NetworkX和Gephi來對圖數據進行處理、理解、可視化和分析。
《數據分析實戰-托馬茲.卓巴斯》讀書筆記第8章--圖(NetworkX、Gephi)修訂版
第9章描述了多種與分析文本信息流相關的技巧:詞性標註、主題抽取以及對文本數據的分類。
《數據分析實戰-托馬茲.卓巴斯》讀書筆記第9章
第10章解釋了選擇模型理論以及一些流行的模型:多項式Logit模型、嵌套Logit模型以及混合Logit模型。
《數據分析實戰-托馬茲.卓巴斯》讀書筆記第10章
第11章涵蓋了代理人基的模擬;咱們模擬的場景有:加油站的加油過程,電動車耗盡電量以及狼——羊的掠食。
《數據分析實戰-托馬茲.卓巴斯》讀書筆記第11章