R語言的可視化

1. 完整的數據分析流程

  • 定義研究問題
  • 定義理想數據集
  • 肯定可以獲取什麼數據
  • 清理數據

2. 變量的類型:

  • 數值變量(可進行加減乘除運算):連續(可在給定區間取任意數值)、離散(給定集合內不連續取值)
  • 分類變量(取值空間有限,不能進行運算):有序(順序有意義)、無序(不可比較)
1. 數值變量特徵和可視化

集中趨勢測量(均值、中位數、衆數)
均值=(數值之和)/(數值個數)
中位數=排序後位於正中間的一個數(奇數)、排序後位於正中間的兩個數的均值(偶數)
衆數=出現次數最多的數函數

分散趨勢測量(值域、方差、標準差、四分位距)3d

舉個例子:
code

其中,中位數、四分位距是穩健統計量,受極端值影響小。blog

一個數值變量的可視化
柱狀圖:橫座標表示預測值全部可能的取值,縱座標表示頻數。
點圖:橫座標表示預測值全部可能的取值,縱座標表示出現的次數。好比出現了一次,就會對應一個點。
箱圖:展現25%分位點、50%分位點、75%分位點。在範圍(25%分位點-1.5四分位距,75%分位點+1.5四分位距)以外的點命異常點。排序

兩個數值變量的關係
散點圖:顯示方向、形狀、強度、極端值。好比正相關、負相關。數據分析

2. 分類變量的特徵和可視化

一個分類變量可視化
頻率表:表格的形式展示數據的分類水平出現的頻率。
條形圖:橫座標表示分類變量的每個水平。it

兩個分類變量的關係
關聯表
相對頻率表
分段條形圖、相對頻率的分段條形圖
馬賽克圖變量

3.一個分類變量一個數值變量

並排箱圖:橫軸分類變量取值,縱軸爲每一個分類變量下對應的數值變量。可視化

3. 三大繪圖系統

基本繪圖系統
藝術家的調色板,繪圖始於空白畫布。分爲兩個步驟 = 圖+修飾添加 = 執行一系列的函數。適於繪製2D圖。
繪圖函數(graphics包)---plot/ hist / boxplot /points /lines /text /title / axis,調用函數的時候會啓動一個圖形設備。
plot(x,y,...),其中重要的參數有:xlab / ylab:x軸y 軸的標籤,lwd線寬,lty線的類型(2爲虛線),pch點,col顏色。
par(),用於設置全局參數,bg:背景顏色,mar邊距,las標籤排版,mfrow行列,mfcol列行。
舉例子:im

hist(airquality$Wind,xlab = "wind")
#一個數值變量的直方圖

boxplot(airquality$Wind,xlab="wind",ylab="speed")
#一個數值變量的箱圖

boxplot(Wind~Month,airquality)
#一個數值變量一個分類變量的並排箱圖,橫軸爲分類水平。

plot(airquality$Wind,airquality$Temp)
#風速與溫度的散點圖,也能夠寫成with函數:
with(airquality,plot(Wind,Temp))

with(subset(airquality,Month==9),points(Wind,Temp,col="red"))
with(subset(airquality,Month==5),points(Wind,Temp,col="blue"))
with(subset(airquality,Month %in% c(6,7,8)),points(Wind,Temp,col="black"))
不一樣月份的點用不一樣顏色繪製

fit<-lm(Temp~Wind,airquality)
abline(fit,lwd=2)
#作一條擬合線

legend("topright",pch=1,col = c("red","blue","black"),legend = c("sep","may","other"))
#作圖例

par(mfrow=c(1,2))
hist(airquality$Wind)
hist(airquality$Temp)
#將屏幕分爲兩個部分做圖。

相關文章
相關標籤/搜索