1.分類javascript
分類是數據挖掘中的一項很是重要的任務,利用分類技術能夠從數據集中提取描述數據類的一個函數或模型(也常稱爲分類器),並把數據集中的每一個對象歸結到某個已知的對象類中。從機器學習的觀點,分類技術是一種有指導的學習,即每一個訓練樣本的數據對象已經有類標識,經過學習能夠造成表達數據對象與類標識間對應的知識。從這個意義上說,數據挖掘的目標就是根據樣本數據造成的類知識並對源數據進行分類,進而也能夠預測將來數據的歸類。分類具備普遍的應用,例如醫療診斷、信用卡的信用分級、圖像模式識別。java
分類挖掘所獲的分類模型能夠採用多種形式加以描述輸出。其中主要的表示方法有:分類規則、決策樹、數學公式和神經網絡。另外,最近又興起了一種新的方法—粗糙集,其知識表示採用產生式規則。算法
分類(classification )是這樣的過程:它找出描述並區分數據類或概念的模型(或函數),以便可以使用模型預測類標記未知的對象類。分類分析在數據挖掘中是一項比較重要的任務, 目前在商業上應用最多。分類的目的是學會一個分類函數或分類模型(也經常稱做分類器),該模型能把數據庫中的數據項映射到給定類別中的某一個類中。
分類和迴歸均可用於預測,二者的目的都是從歷史數據紀錄中自動推導出對給定數據的推廣描述,從而能對將來數據進行預測。與迴歸不一樣的是,分類的輸出是離散的類別值,而回歸的輸出是連續數值。兩者常表現爲決策樹的形式,根據數據值從樹根開始搜索,沿着數據知足的分支往上走,走到樹葉就能肯定類別。
要構造分類器,須要有一個訓練樣本數據集做爲輸入。訓練集由一組數據庫記錄或元組構成,每一個元組是一個由有關字段(又稱屬性或特徵)值組成的特徵向量,此 外,訓練樣本還有一個類別標記。一個具體樣本的形式可表示爲:(v1,v2,...,vn; c);其中vi表示字段值,c表示類別。分類器的構造方法有統計方法、機器學習方法、神經網絡方法等等。
不一樣的分類器有不一樣的特色。有三種分類器評價或比較尺度:1)預測準確度;2)計算複雜度;3)模型描述的簡潔度。預測準確度是用得最多的一種比較尺度, 特別是對於預測型分類任務。計算複雜度依賴於具體的實現細節和硬件環境,在數據挖掘中,因爲操做對象是巨量的數據,所以空間和時間的複雜度問題將是很是重 要的一個環節。對於描述型的分類任務,模型描述越簡潔越受歡迎。
另外要注意的是,分類的效果通常和數據的特色有關,有的數據噪聲大,有的有空缺值,有的分佈稀疏,有的字段或屬性間相關性強,有的屬性是離散的而有的是連續值或混合式的。目前廣泛認爲不存在某種方法能適合於各類特色的數據
數據庫
2.聚類網絡
與分類技術不一樣,在機器學習中,聚類是一種無指導學習。也就是說,聚類是在預先不知道欲劃分類的狀況下,根據信息類似度原則進行信息聚類的一種方法。聚 類的目的是使得屬於同類別的對象之間的差異儘量的小,而不一樣類別上的對象的差異儘量的大。所以,聚類的意義就在於將觀察到的內容組織成類分層結構,把 相似的事物組織在一塊兒。經過聚類,人們可以識別密集的和稀疏的區域,於是發現全局的分佈模式,以及數據屬性之間的有趣的關係。機器學習
數據聚類分析是一個正在蓬勃發展的領域。聚類技術主要是以統計方法、機器學習、神經網絡等方法爲基礎。比較有表明性的聚類技術是基於幾何距離的聚類方法,如歐氏距離、曼哈坦距離、明考斯基距離等。聚類分析普遍應用於商業、生物、地理、網絡服務等多種領域。函數
聚類(clustering)是指根 據「物以類聚」的原理,將自己沒有類別的樣本彙集成不一樣的組,這樣的一組數據對象的集合叫作簇,而且對每個這樣的簇進行描述的過程。它的目的是使得屬於 同一個簇的樣本之間應該彼此類似,而不一樣簇的樣本應該足夠不類似。與分類規則不一樣,進行聚類前並不知道將要劃分紅幾個組和什麼樣的組,也不知道根據哪些空 間區分規則來定義組。其目的旨在發現空間實體的屬性間的函數關係,挖掘的知識用以屬性名爲變量的數學方程來表示。
當前,聚類技術正在蓬勃發展,涉及範圍包括數據挖掘、統計學、機器學習、空間數據庫技術、生物學以及市場營銷等領域,聚類分析已經成爲數據挖掘研究領域中 一個很是活躍的研究課題。常見的聚類算法包括:K-均值聚類算法、K-中心點聚類算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。 學習