集中趨勢測量(均值、中位數、衆數)
均值=(數值之和)/(數值個數)
中位數=排序後位於正中間的一個數(奇數)、排序後位於正中間的兩個數的均值(偶數)
衆數=出現次數最多的數函數
分散趨勢測量(值域、方差、標準差、四分位距)3d
舉個例子:
code
其中,中位數、四分位距是穩健統計量,受極端值影響小。blog
一個數值變量的可視化
柱狀圖:橫座標表示預測值全部可能的取值,縱座標表示頻數。
點圖:橫座標表示預測值全部可能的取值,縱座標表示出現的次數。好比出現了一次,就會對應一個點。
箱圖:展現25%分位點、50%分位點、75%分位點。在範圍(25%分位點-1.5四分位距,75%分位點+1.5四分位距)以外的點命異常點。排序
兩個數值變量的關係
散點圖:顯示方向、形狀、強度、極端值。好比正相關、負相關。數據分析
一個分類變量可視化
頻率表:表格的形式展示數據的分類水平出現的頻率。
條形圖:橫座標表示分類變量的每個水平。it
兩個分類變量的關係
關聯表
相對頻率表
分段條形圖、相對頻率的分段條形圖
馬賽克圖變量
並排箱圖:橫軸分類變量取值,縱軸爲每一個分類變量下對應的數值變量。可視化
基本繪圖系統
藝術家的調色板,繪圖始於空白畫布。分爲兩個步驟 = 圖+修飾添加 = 執行一系列的函數。適於繪製2D圖。
繪圖函數(graphics包)---plot/ hist / boxplot /points /lines /text /title / axis,調用函數的時候會啓動一個圖形設備。
plot(x,y,...),其中重要的參數有:xlab / ylab:x軸y 軸的標籤,lwd線寬,lty線的類型(2爲虛線),pch點,col顏色。
par(),用於設置全局參數,bg:背景顏色,mar邊距,las標籤排版,mfrow行列,mfcol列行。
舉例子:im
hist(airquality$Wind,xlab = "wind") #一個數值變量的直方圖
boxplot(airquality$Wind,xlab="wind",ylab="speed") #一個數值變量的箱圖
boxplot(Wind~Month,airquality) #一個數值變量一個分類變量的並排箱圖,橫軸爲分類水平。
plot(airquality$Wind,airquality$Temp) #風速與溫度的散點圖,也能夠寫成with函數: with(airquality,plot(Wind,Temp))
with(subset(airquality,Month==9),points(Wind,Temp,col="red")) with(subset(airquality,Month==5),points(Wind,Temp,col="blue")) with(subset(airquality,Month %in% c(6,7,8)),points(Wind,Temp,col="black")) 不一樣月份的點用不一樣顏色繪製
fit<-lm(Temp~Wind,airquality) abline(fit,lwd=2) #作一條擬合線
legend("topright",pch=1,col = c("red","blue","black"),legend = c("sep","may","other")) #作圖例
par(mfrow=c(1,2)) hist(airquality$Wind) hist(airquality$Temp) #將屏幕分爲兩個部分做圖。