.數據挖掘及工具簡介

01.數據挖掘及工具簡介
目標,理解數據挖掘的基本概念,術語含義
瞭解經常使用挖掘算法種類以及應用場景
理解數據挖掘的流程
熟悉RapidMiner工具平臺界面功能組成
什麼是數據挖掘
數據挖掘(從數據中發現知識)
從大量的數據中挖掘出那些使人感興趣的隱含的史無前例的和可能的模式和知識
挖掘的不只是數據(因此數據挖掘並不是是一個精確的用詞)
數據挖掘的替換詞(數據庫知識挖掘KDD,知識提煉,數據/模式分析。數據考古,數據捕撈,信息收貨等等)
在何種數據上進行數據挖掘
數據庫數據
數據倉庫
事務數據
其餘類型的數據
--時間相關的數據(歷史記錄,股票交易,時間序列,生物學序列)
--空間數據庫(如地圖)
--數據流(視頻監控,傳感器數據)
--工程設計數據(如建築,系統部件或者集成電路)
--超文本和多媒體數據(如文本,圖像,音頻,視頻)
--圖或者網狀數據(如社會和信息網絡,微博傳播路徑)
--萬維網
通常功能
--描述性的數據挖掘
--預測性的數據挖掘
一般用戶並不知道在數據中挖掘出什麼數據,對此咱們會在數據挖掘中應用一些經常使用的數據挖掘功能,挖掘出一些經常使用的數據模式
--概念/類描述:特徵化和區分
--關聯分析
--分類和預測
--聚類分析
--孤立點分析
--趨勢和演變分析
概念描述:爲數據的特徵化和比較產生描述(當描述的概念所指的是一類對象時,也稱爲類描述)
--特徵化:提供給定的數據集簡潔彙總
例?:對AllElectronic公司的大客戶(年消費額$1000以上)的特徵化描述,40-50歲有固定職業,信譽良好,等等
--區分提供兩個或者多個數據集的比較描述
status             birth_country    age_range   gpa    count
graduate           canada           25-30       good    90
undergraduate      canada           25-30       good    210
關聯規則挖掘
從事數據庫,關係數據庫和其餘信息存儲中大量的項集之間發現有趣的頻繁的模式,關聯和相關性
普遍用於購物籃或事物數據分析

age (x,"30...39")^income(x,"42k...48k")=>buys(x,"computer) [sup port=20%,confidence=70%]web

分類和預測
根據訓練集和類標號屬性,構建模型來分類實現現有數據,並用來分類新數據(分類),用來預測類型標誌未知的對象
-好比按氣候將國家分類,按照汽油消耗將汽車分類
-導出模型的表示,決策樹,分類規則,神經網絡
-能夠用來預報某些未知的或者丟失的數字值

IF age="<=30" AND studeng="no" then buys_computer="no"
IF age="<=30" AND studeng="yes" then buys_computer="yes"
IF age="<=31...40" then buys_computer="no"
IF age=">40" AND credit_rating="excellent" then buys_computer="yes"
IF age=">30" AND credit_rating="fair" then buys_computer="no"算法

聚類分析
-將物理或抽象對象的集合分組成爲一個由類似的對象組成的多個類的過程
-最大化類內的類似性和最小化類間的類似性
列入,對web日誌數據進行聚類,以發現相同用戶的訪問模式數據庫

孤立點分析
-孤立點:一些與數據的通常行爲或模型不一致的孤立數據
一般孤立點被做爲噪聲或異常被丟棄,但在欺騙檢測行爲中卻以經過對罕見的事件進行孤立點分析而獲得的結論
應用
信用卡欺詐檢測
移動電話欺詐檢測
客戶劃分
醫療分析(異常)api

趨勢和演變分析
描述行爲隨時間變化的對象發展趨勢或規律(時序數據庫)
-趨勢和誤差:迴歸分析
-序列模式匹配:週期性分析
-基於相似性的分析網絡

 

 

Rapid Miner工具
官網工具 www.rapidminer.com
RapidMiner插件下載地址
http://marketplace.rapid-i.com/UpdateServeride

相關文章
相關標籤/搜索