數據挖掘入門算法整理

一、關聯

    關聯是指一個事件與另外一個事件之間的依賴關係。如經典的尿布與啤酒的關係。
    apriori算法是最經典的關聯規則算法,基本思想是:首先從事件中集中找到全部頻繁出現的子集。而後在這些子集中發現可信度較高的規則。算法

二、聚類

    聚類就是將對象劃分紅若干個類,在同一類中對象具備較高的類似度,不一樣類中對象差別較大。
    基於對象間距離能夠分爲兩類算法:劃分方法(Partitioning Method)和層次聚類方法(Hierarchial Method)。前者的思想是:迭代計算各點到類中心點距離,類內數據點越近越好,類間點越遠越好。後者思想是:將對象分層創建簇,造成一顆以簇爲節點的樹,自下而上的是彙集的層次聚類,自上而下的是分裂的層次聚類。機器學習

三、預測

    預測是經過對反映了事物輸入和輸出之間的關聯性的學習,獲得預測模型,再利用該模型對將來數據進行預測的過程。如機器學習的一個簡單模型:輸入數據爲(x1,y1),(x2,y2)...(xn,yn),經過輸入數據的學習,能夠獲得模型y=f(x,β)中的β,從而對於新數據咱們能夠經過x肯定y值。
    具體的預測算法有不少,各自的效果和實現自行百度吧。學習

四、序列和時間序列

    序列是指被排成一列的對象,即有序對象。而時間序列則是以時間來區隔的序列。因爲序列與關聯關係很密切,因此序列前邊的值極可能影響序列後邊的值,對於時間序列而言就和迴歸分析很像了。url

    這裏列出的只是書中給出的,僅是一些比較有表明性的入門算法,實際每一個分類下還有不少算法或變種,好比預測中比較經常使用的還有鄰近法和樸素貝葉斯等,這裏再也不給出。此外本篇主要是給出這些算法概念,看了以後可能不知所云,因此若是真要深刻了解,就須要去查對應算法相關的資料了。spa

相關文章
相關標籤/搜索