用R語言作數據分析(5)——數據框

時間 2020-02-27

標籤語言作數據分析數據欄目大數據简体版

原文原文鏈接

前面幾篇文章對R語言、R包以及R向量與矩陣等對象作了簡單介紹，本篇繼續介紹R數據框的相關內容。數據庫

數據框的建立函數

經過data.frame函數來建立數據框，該函數包含的主要參數爲:spa

data.frame(..., row.names = NULL, check.rows = FALSE, check.names = TRUE,對象

stringsAsFactors = default.stringsAsFactors())數據分析

建立一個數據框string

Demo_1<-data.frame(name=c('lucy','alice','lei'),class

heigh=c(178,156,188),變量

sex=c('F','F','M'),grid

score=c(200,210,198))im

#包括一個缺乏值的數據框

Demo_2<-data.frame(name=c('lucy','alice','lei'),

heigh=c(178,156,188),

sex=c('F','F',NA),

score=c(200,210,198),

stringsAsFactors =F)

默認狀況下，name與sex都是factor類型，若是要將某轉化成字符類型，則使用選項：

stringsAsFactors =F數據框特別點

一、能夠包含不一樣類型的變量；而在矩陣中只能是同一種類型，例如：不能出現字符與數值二種類型；因此能夠把數據框理解爲各列可爲不一樣類型的向量組合。

二、各列的長度要求一致。若是長度不一，則會報錯。例如：

三、若是你對數據庫比較熟悉，你能夠把數據框理解爲數據庫中的表。數據框基本操做

一、查看數據框信息

#查看類型class(Demo_1) #查看某列的類型class(Demo_1$sex) #查看數據框長度length(Demo_1) #數據框各項名稱names(Demo_1) #數據框信息總結,對字符類/因子類數據，給出相應的頻數統計；給數值型數據給出5個主要的指標。summary(Demo_1) #對數據框進行去重unique(Demo_1) #取數據框中重複的行Demo_1[duplicated(Demo_1),]

二、取數據框中的某個元素

Demo_1[i,j]指第i行第j列的數據；

三、取數據框中一列與多列

#取某列，能夠經過列標或者名稱Demo_1$sex Demo_1[,3] #取多行，例如取1，2，4列Demo_1[,-3] Demo_1[,c(1,2,4)]

四、取數據框中的一行與多行

#取某行，能夠經過行標或者名稱,例如：取數據框的第一行Demo_1[1,] #取多行，例如：取數據框的第一與第二行

五、判斷數據框各行是否完整

complete.cases(Demo_2) #選擇非缺失值的數據Demo_1[complete.cases(Demo_2),]

六、增長列

#給Demo_1增長一列Demo_1$score2<-c(12,13,23)Demo_1<-cbind(Demo_1,score2=c(12,13,23))

七、增長行

#合併某二個數據框的二列Demo_3<-rbind(Demo_1[,c(1,2)], Demo_2[,c(1,2)])