機器學習和數據挖掘推薦書單算法
有了這些書,不再愁下了班沒妹紙該咋辦了。慢慢來,認真學,揭開機器學習和數據挖掘這一神祕的面紗吧!安全
《機器學習實戰》:本書第一部分主要介紹機器學習基礎,以及如何利用算法進行分類,並逐步介紹了多種經典的監督學習算法,如k近鄰算法、樸素貝葉斯算法、Logistic迴歸算法、支持向量機、AdaBoost集成方法、基於樹的迴歸算法和分類迴歸樹(CART)算法等。第三部分則重點介紹無監督學習及其一些主要算法:k均值聚類算法、Apriori算法、FP-Growth算法。第四部分介紹了機器學習算法的一些附屬工具。網絡
全書經過精心編排的實例,切入平常工做任務,摒棄學術化語言,利用高效的可複用Python代碼來闡釋如何處理統計數據,進行數據分析及可視化。經過各類實例,讀者可從中學會機器學習的核心算法,並能將其運用於一些策略性任務中,如分類、預測、推薦。另外,還可用它們來實現一些更高級的功能,如彙總和簡化等。機器學習
以前看過一部分這本書,可是實習工做涉及到用Java代碼處理數據,因此暫時先擱一下,目前正在李航的那本書。分佈式
《數據挖掘-實用機器學習技術》:本書介紹數據挖掘的基本理論與實踐方法。主要內容包括:各類模型(決策樹,關聯規則、線性模型、聚類、貝葉斯網以及神經網絡)以及在實踐中的運用,所存任缺陷的分析。安全地清理數據集、創建以及評估模型的預測質量的方法,而且提供了一個公開的數據挖掘工做平臺Weka。Weka系統擁有進行數據挖掘仟務的圖形用戶界面,有助於理解模型,是一個實用而且深受歡迎的工具。工具
《數據挖掘:概念與技術》:本書全面地講述數據挖掘領域的重要知識和技術創新。在第1版內容至關全面的基礎上,第2版展現了該領域的最新研究成果,例如挖掘流、時序和序列數據以及挖掘時間空間、多媒體、文本和Web數據。本書可做爲數據挖掘和知識發現領域的教師、研究人員和開發人員的一本必讀書。學習
《統計學習基礎 數據挖掘、推理與預測》:儘管應用的是統計學方法,但強調的是概念,而不是數學。許多例子附以彩圖。《統計學習基礎:數據挖掘、推理與預測》內容普遍,從有指導的學習(預測)到無指導的學習,應有盡有。包括神經網絡、支持向量機、分類樹和提高等主題,是同類書籍中介紹得最全面的。計算和信息技術的飛速發展帶來了醫學、生物學、財經和營銷等諸多領域的海量數據。理解這些數據是一種挑戰,這致使了統計學領域新工具的發展,並延伸到諸如數據挖掘、機器學習和生物信息學等新領域。測試
《機器學習》(Mitchell):展現了機器學習中核心的算法和理論,並闡明瞭算法的運行過程。《機器學習》綜合了許多的研究成果,例如統計學、人工智能、哲學、信息論、生物學、認知科學、計算複雜性和控制論等,並以此來理解問題的背景、算法和其中的隱含假定。《機器學習》可做爲計算機專業 本科生、研究生教材,也可做爲相關領域研究人員、教師的參考書。大數據
《統計學習方法》:本書全面系統地介紹了統計學習的主要方法,特別是監督學習方法,包括感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯諦迴歸與最大熵模型、支持向量機、提高方法、em算法、隱馬爾可夫模型和條件隨機場等。除第1章概論和最後一章總結外,每章介紹一種方法。敘述從具體問題或實例入手,由淺入深,闡明思路,給出必要的數學推導,便於讀者掌握統計學習方法的實質,學會運用。爲知足讀者進一步學習的須要,書中還介紹了一些相關研究,給出了少許習題,列出了主要參考文獻。優化
《機器學習導論》:對機器學習的定義和應用實例進行了介紹,涵蓋了監督學習。貝葉斯決策理論。參數方法、多元方法、維度歸約、聚類、非參數方法、決策樹。線性判別式、多層感知器,局部模型、隱馬爾可夫模型。分類算法評估和比較,組合多學習器以及加強學習等。
《機器學習及其應用》:全書共分14章,內容分別涉及因果推斷、流形學習與降維、遷移學習、類別不平衡學習、演化聚類、多標記學習、排序學習、半監督學習等技術和協同過濾、社區推薦、機器翻譯等應用,以及互聯網應用對機器學習技術需求的探討。
《模式分類》第二版:除了保留了第1版的關於統計模式識別和結構模式識別的主要內容之外,讀者將會發現新增了許多近25年來的新理論和新方法,其中包括神經網絡、機器學習、數據挖掘、進化計算、不變量理論、隱馬爾可夫模型、統計學習理論和支持向量機等。
《推薦系統實踐》:過大量代碼和圖表全面系統地闡述了和推薦系統有關的理論基礎,介紹了評價推薦系統優劣的各類標準(好比覆蓋率、滿意度)和方法(好比AB測試),總結了當今互聯網領域中各類和推薦有關的產品和服務。
《深刻搜索引擎--海量信息的壓縮、索引和查詢》:理論和實踐並重,深刻淺出地給出了海量信息數據處理的整套解決方案,包括壓縮、索引和查詢的方方面面。其最大的特點在於不單單知足信息檢索理論學習的須要,更重要的是給出了實踐中可能面對的各類問題及其解決方法。
《機率論與數理統計》:這本書不用過多介紹了吧,廣泛大學裏大一時期的教科書,只恨當年沒聽課啊,如今正在慢慢啃。。。
《大數據:互聯網大規模數據挖掘與分佈式處理》:主要內容包括分佈式文件系統、類似性搜索、搜索引擎技術、頻繁項集挖掘、聚類算法、廣告管理及推薦系統。
《Web數據挖掘》:信息檢索領域的書籍,該書深刻講解了從大量非結構化Web數據中提取和產生知識的技術。書中首先論述了Web的基礎(包括Web信息採集機制、Web標引機制以及基於關鍵字或基於類似性搜索機制),而後系統地描述了Web挖掘的基礎知識,着重介紹基於超文本的機器學習和數據挖掘方法,如聚類、協同過濾、監督學習、半監督學習,最後講述了這些基本原理在Web挖掘中的應用。《Web數據挖掘》爲讀者提供了堅實的技術背景和最新的知識。
《數據之巔》:對大數據追根溯源,提出當前信息技術的發展,已經讓中國得到了後發優點,中國要在大數據時代的全球競爭中勝出,必須把大數據從科技符號提高成爲文化符號,在全社會倡導數據文化。
《深刻淺出統計學》:本書涵蓋的知識點包括:信息可視化、機率計算、幾何分佈、二項分佈及泊松分佈、正態分佈、統計抽樣、置信區間的構建、假設檢驗、卡方分佈、相關與迴歸等等,完整涵蓋AP考試範圍。
《矩陣分析》:本書從數學分析的角度論述矩陣分析的經典方法和現代方法,取材新,有必定的深度,並給出在多元微積分、複分析、微分方程、量優化、逼近理論中的許多重要應用。主要內容包括:特徵值、特徵向量和類似性,酉等價和正規矩陣,標準形,Hermite矩陣和對稱矩陣,向量範數和矩陣範數,特徵值和估計和擾動,正定矩陣,非負矩陣。