R語言|數據特徵分析

對數據進行質量分析之後,接下來可經過繪製圖表、計算某些特徵量等手段進行數據的特徵分析。html

主要經過分佈分析、對比分析、統計量分析、週期性分析、貢獻度分析、相關性分析等角度進行展開。spa

2.1 分佈分析htm

     分佈分析能揭示數據的分佈特徵和分佈類型。對於定性數據,可用餅形圖和條形圖直觀的現實分佈狀況。對象

1.定量數據的分佈分析blog

對於定量變量而言,選擇「組數」和「組寬」是作頻率分佈分析時最主要的問題,通常按照如下步驟進行。數據分析

1)求極差。變量

2)決定組距與組數。原理

3)決定分點。方法

4)列出頻率分佈表。im

5)繪製頻率分佈直方圖。

遵循的主要原則以下。

1)各組之間必須是相互排斥的。

2)各組必須將全部的數據包含在內。

3)各組的組寬最好相等。

對於定性變量,經常根據變量的分類類型來分組,能夠採用餅形圖和條形圖來描述定性變量的分佈。

2.2 對比分析

     對比分析是指把兩個相互聯繫的指標進行比較,從數據量上展開和說明研究對象規模的大小,水平的高低,速度的快慢。在對比分析中,選擇合適的對比標準是十分關鍵的步驟。

1)絕對數比較

它是利用絕對數進行對比,從而尋找差別的一種方法

2)相對數比較

它是由兩個相聯繫的指標對比計算的,用以反映客觀現象之間的數量聯繫程度的綜合指標,其數值爲相對數。

 相對數能夠分爲如下幾種

1)結構相對數

2)比例相對數

3)比較相對數

4)強度相對數

5)動態相對數

2.3  統計量分析

    用統計指標對定量數據進行統計描述,常從集中趨勢和離中趨勢兩個方面進行分析。

1. 集中趨勢度量

集中趨勢度量有如下幾個方面。

1)均值

2)中位數

3)衆數

2. 離中趨勢度量

離中趨勢度量主要包括以下幾個方面。

1)極差

2)標準差

3)變異係數

4)四分位數間距

2.4 週期性分析

     週期性分析是探索某個變量是否隨着時間變化而呈現出某種週期變化趨勢。時間尺度相對較長的週期性趨勢有年度週期性趨勢、季節性週期性趨勢,相對較短的有月度週期性趨勢、周度週期性趨勢,甚至更短的天、小時週期性趨勢。

2.5 貢獻度分析

   貢獻度分析又稱帕累託分析,它的原理是帕累托法則又稱2/8定律

即累積效應達80%的前幾個因素.

2.6 相關性分析

   分析連續變量之間線性相關程度的強弱,並用適當的統計指標表示出來的過程稱爲相關分析。

參考來源於:R語言數據分析與挖掘實戰_張良均,雲偉標,王路著_北京:機械工業出版社

      https://kknews.cc/tech/89xlq8l.html    

相關文章
相關標籤/搜索