《數據挖掘:R語言實戰》算法
基本信息數據庫
做者: 黃文 王正林 網絡
叢書名: 大數據時代的R語言機器學習
出版社:電子工業出版社函數
ISBN:9787121231223工具
上架時間:2014-6-6學習
出版日期:2014 年6月測試
開本:16開大數據
頁碼:292優化
版次:1-1
所屬分類:計算機 > 軟件與程序設計 > 綜合 > 高級程序語言設計
更多關於》》》《數據挖掘:R語言實戰》
內容簡介
書籍
計算機書籍
數據挖掘技術是當下大數據時代最關鍵的技術,其應用領域及前景不可估量。r 是一款極其優秀的統計分析和數據挖掘軟件,《數據挖掘:r語言實戰》側重使用r 進行數據挖掘,重點講述了r 的數據挖掘流程、算法包的使用及相關工具的應用,同時結合大量精選的數據挖掘實例對r 軟件進行深刻潛出和全面的介紹,以便讀者能深入理解r 的精髓並能快速、高效和靈活地掌握使用r 進行數據挖掘的技巧。
經過《數據挖掘:r語言實戰》,讀者不只能掌握使用r 及相關的算法包來快速解決實際問題的方法,並且能獲得從實際問題分析入手,到利用r 進行求解,以及對挖掘結果進行分析的全面訓練。
《數據挖掘:r語言實戰》適用於計算機、互聯網、機器學習、信息、數學、經濟金融、管理、運籌、統計以及有關理工科專業的本科生、研究生使用,也能幫助市場營銷、金融、財務、人力資源管理人員及產品經理解決實際問題,還能幫助從事諮詢、研究、分析行業的人士及各級管理人士提升專業水平。
目錄
《數據挖掘:r語言實戰》
第0 章 致敬,r!
致敬,肩膀!
致敬,時代!
致敬,人才!
致敬,r 瑟!
上篇 數據預處理
第1 章 數據挖掘導引
1.1 數據挖掘概述
1.1.1 數據挖掘的過程
1.1.2 數據挖掘的對象
1.1.3 數據挖掘的方法
1.1.4 數據挖掘的應用
1.2 數據挖掘的算法
1.3 數據挖掘的工具
1.3.1 工具的分類
1.3.2 工具的選擇
1.3.3 商用的工具
1.3.4 開源的工具
1.4 r 在數據挖掘中的優點
第2 章 數據概覽
2.1 n×m 數據集
2.2 數據的分類
2.2.1 通常的數據分類
2.2.2 r 的數據分類
2.2.3 用r 簡單處理數據
2.3 數據抽樣及r 實現
2.3.1 簡單隨機抽樣
2.3.2 分層抽樣
2.3.3 整羣抽樣
2.4 訓練集與測試集
2.5 本章彙總
第3 章 用r 獲取數據
3.1 獲取內置數據集
3.1.1 datasets 數據集
3.1.2 包的數據集
3.2 獲取其餘格式的數據
3.2.1 csv 與txt 格式
3.2.2 從excel 直接獲取數據
3.2.3 從其餘統計軟件中獲取數據
3.3 獲取數據庫數據
3.4 獲取網頁數據
3.5 本章彙總
第4 章 探索性數據分析
4.1 數據集
4.2 數字化探索
4.2.1 變量概況
4.2.2 變量詳情
4.2.3 分佈指標
4.2.4 稀疏性
4.2.5 缺失值
4.2.6 相關性
4.3 可視化探索
4.3.1 直方圖
4.3.2 累積分佈圖
4.3.3 箱形圖
4.3.4 條形圖
4.3.5 點陣圖
4.3.6 餅圖
4.5 本章彙總
第5 章 數據預處理
5.1 數據集加載
5.2 數據清理
5.2.1 缺失值處理
5.2.2 噪聲數據處理
5.2.3 數據不一致的處理
5.3 數據集成
5.4 數據變換
5.5 數據歸約
5.6 本章彙總
中篇 基本算法及應用
第6 章 關聯分析
6.1 概述
6.2 r 中的實現
6.2.1 相關軟件包
6.2.2 核心函數
6.2.3 數據集
6.3 應用案例
6.3.1 數據初探
6.3.2 對生成規則進行強度控制
6.3.3 一個實際應用
6.3.4 改變輸出結果形式
6.3.5 關聯規則的可視化
6.4 本章彙總
第7 章 聚類分析
7.1 概述
7.1.1 k-均值聚類
7.1.2 k-中心點聚類
7.1.3 系譜聚類
7.1.4 密度聚類
7.1.5 指望最大化聚類
7.2 r 中的實現
7.2.1 相關軟件包
7.2.2 核心函數
7.2.3 數據集
7.3 應用案例
7.3.1 k-均值聚類
7.3.2 k-中心點聚類
7.3.3 系譜聚類
7.3.4 密度聚類
7.3.5 指望最大化聚類
7.4 本章彙總
第8 章 判別分析
8.1 概述
8.1.1 費希爾判別
8.1.2 貝葉斯判別
8.1.3 距離判別
8.2 r 中的實現
8.2.1 相關軟件包
8.2.2 核心函數
8.2.3 數據集
8.3 應用案例
8.3.1 線性判別分析
8.3.2 樸素貝葉斯分類
8.3.3 k 最近鄰
8.3.4 有權重的k 最近鄰算法
8.4 推薦系統綜合實例
8.4.1 knn 與推薦
8.4.2 movielens 數據集說明
8.4.3 綜合運用
8.5 本章彙總
第9 章 決策樹
9.1 概述
9.1.1 樹形結構
9.1.2 樹的構建
9.1.3 經常使用算法
9.2 r 中的實現
9.2.1 相關軟件包
9.2.2 核心函數
9.2.3 數據集
9.3 應用案例
9.3.1 cart 應用
9.3.2 c4.5 應用
9.4 本章彙總
下篇 高級算法及應用
第10 章 集成學習
10.1 概述
10.1.1 一個機率論小計算
10.1.2 bagging 算法
10.1.3 adaboost 算法
10.2 r 中的實現
10.2.1 相關軟件包
10.2.2 核心函數
10.2.3 數據集
10.3 應用案例
10.3.1 bagging 算法
10.3.2 adaboost 算法
10.4 本章彙總
第11 章 隨機森林
11.1 概述
11.1.1 基本原理
11.1.2 重要參數
11.2 r 中的實現
11.2.1 相關軟件包
11.2.2 核心函數
11.2.3 可視化分析
11.3 應用案例
11.3.1 數據處理
11.3.2 創建模型
11.3.3 結果分析
11.3.4 自變量的重要程度
11.3.5 優化建模
11.4 本章彙總
第12 章 支持向量機
12.1 概述
12.1.1 結構風險最小原理
12.1.2 函數間隔與幾何間隔
12.1.3 核函數
12.2 r 中的實現
12.2.1 相關軟件包
12.2.2 核心函數
12.2.3 數據集
12.3 應用案例
12.3.1 數據初探
12.3.2 創建模型
12.3.3 結果分析
12.3.4 預測判別
12.3.5 綜合建模
12.3.6 可視化分析
12.3.7 優化建模
12.4 本章彙總
第13 章 神經網絡
13.1 概述
13.2 r 中的實現
13.2.1 相關軟件包
13.2.2 核心函數
13.3 應用案例
13.3.1 數據初探
13.3.2 數據處理
13.3.3 創建模型
13.3.4 結果分析
13.3.5 預測判別
13.3.6 模型差別分析
13.3.7 優化建模
13.4 本章彙總
第14 章 模型評估與選擇
14.1 評估過程概述
14.2 安裝rattle 包
14.3 rattle 功能簡介
14.3.1 data——選取數據
14.3.2 explore——數據探究
14.3.3 test——數據相關檢驗
14.3.4 transform——數據預處理
14.3.5 cluster——數據聚類
14.3.6 model——模型評估
14.3.7 evaluate——模型評估
14.3.8 log——模型評估記錄
14.4 模型評估相關概念
14.4.1 誤判率
14.4.2 正確/錯誤的確定判斷、正確/錯誤的否認判斷
14.4.3 精確度、敏感度及特異性
14.5 rattle 在模型評估中的應用
14.5.1 混淆矩陣
14.5.2 風險圖
14.5.3 roc 圖及相關圖表
14.5.4 模型得分數據集
14.6 綜合實例
14.6.1 數據介紹
14.6.2 模型創建
14.6.3 模型結果分析