分類用於預測數據對象的離散類別,預測則用於預斷 欺詐檢測等的方面。算法
具備表明性的分類的方法 :決策樹方法 貝葉斯分類方法 神經網絡方法 支持向量機方法 關聯分類的方法 最後 將討論提升分類和預測期準確率的通常性的策略數據庫
分類的過程通常是有兩個步驟組成的 第一個步驟是模型創建階段,目的是描述預先定義的數據類或者概念集的分類器。這一步中會使用分類算法分析已有數據來構造分類器。網絡
第二步驟是使用第一步獲得的分類器進行分類,從而評估分類器的預測的準確率工具
預測與分類不一樣的是 對於須要預測的屬性值是連續的 ,並且是有序的,分類所須要預測的屬性值是無序的 麗薩的 ,學習
5.3關於分類和預測的問題--數據預處理問題和分類方法的比較和評估的標準測試
預處理:數據清理 相關分析 數據轉換 (泛化或者是規範數據)對象
評估準確率的經常使用的技術:保持方法 隨機子抽樣 交叉驗證 的方法 是基於給定數據的隨機抽樣的劃分數據挖掘
分類的方法第一------決策樹的分類神經網絡
決策樹分類器是很是流行的分類的方法 是能夠處理高維數據的。方法
屬性選擇度量是指的是決策樹分類器的分裂的準則 (也就是節點的分裂)選擇的標準是要使得在每一個非葉子節點進行屬性的測試的時候,使得被測元祖的類別的信息是最大化的,保證非葉子節點到達各後代的葉子節點的平均路徑是最短的,分類的速度是最快的。
三種屬性選擇的度量的方法:信息增益 增益率 Gini指標
分析分類器識別不一樣類元組的狀況的時候的有用的工具是成爲混淆矩陣,此矩陣能夠用於在決策樹分類中的屬性選擇的度量中,判斷選擇合適的屬性進行節點的分裂
通常三種屬性選擇度量的方法都可以返回一個較好的結果,可是各自選擇傾向不一樣,信息增益傾向於多值數據,增益率克服了多值數據,可是傾向於不平衡的分裂,Gini係數指標偏向於多值屬性,並且當類的數目很大時候會出現困難的。另外它還傾向於致使相等大小和相等純度的劃分,也就是說比較於傾向於一種均衡的劃分
爲何在大規模的數據挖掘中 決策樹被普遍地應用呢?
它相對於其餘分類方法有較快的學習速度
生成的決策樹能可以很容易轉換爲簡單于理解的分類規則
使用SQL語句對數據庫進行訪問
它與其餘分類方法相比有着可比較的分類準確率。