數據挖掘複習筆記---02.數據

數據工具


四個問題

  • 數據類型(用什麼類型,用什麼工具)


  • 數據質量(噪聲,離散點,缺失值,異常點,重複)


  • 預處理(提升數據質量,使數據能夠被特定的工具處理)


  • 類似性和距離度量




本節大綱

  • 關於數據的基本概念


  • 如何用統計學方法描述數據


  • 數據可視化


  • 度量數據之間的類似性和距離


基本概念

  • 數據集

    特性:維度,稀疏程度post

    類型:結構化記錄,圖像,時間序列數據spa


  • 屬性

    種類:分類數據(Categorical),數值型/量化數據(Quantitative),離散、連續code


統計學描述

  • Mean, 均值


  • 加權均值


  • Median, 中位數


  • Mode, 衆數


  • Midrange, 中列數 = (min + max) / 2


對稱性

  • Skewness, 傾斜程度 = Mean - Mode, Skewness

    Skewness = 0, 對稱, Symmetricip


    Symmetric


    Skewness > 0, 均值大於衆數, 正向傾斜, Positively skewnessci

    postive


    Skewness < 0, 均值小於衆數, 負向傾斜, Negatively skewnessit

    negative


Divergence, 差別性

  • Q 分位數(有序序列, %)

    Q0 = min, Q1 = 25%, Q2 = 50%(中位數), Q3 = 75%, Q5 = maxio


  • Boxplot 盒子圖, 實線盒子的上中下邊界是 Q3, Q2, Q1, 虛線上下邊界是 max, min


  • 方差, Variance

    Variance


  • 標準差, standard deviation = sqrt(variance)


可視化, Visualization

  • 更加方便直觀地體驗數據,觀察趨勢,相關性


  • 直方圖

    不一樣的顏色 --- 不一樣類別class

    不一樣的高度,寬度 --- 數量數據可視化


  • 散點圖

    To describe whether there are relationships, patterns or trends between two numerical variables, 揭示兩個變量之間是否存在關聯

    正相關,負相關,不相關


  • 高維數據

    很難同時展現全部維度的數據

    分層展現,樹形結構


  • 非數值型數據


    文本:標籤,詞雲,大小顏色

    word size


    圖:結點的顏色,大小,邊的粗細

    social network


距離度量

  • 街區距離,曼哈頓距離
  • 歐式距離,歐幾里得距離
  • 閔可夫斯基距離, Minkowski Distance

    Minkowski Distance

    p = 1 時 變成街區距離, p = 2 時變成歐式距離

相關文章
相關標籤/搜索