理解數據集

數據集一般是長方形數據矩陣,行表明一個觀察值,列表明一個變量,下表提供了一個假想的病人數據集數據庫

不一樣的規則有不一樣的數據集行列名稱。數據統計把它們成爲一個觀察值和變量,數據庫分析員把它們成爲一條記錄和域,數據挖掘和機器學習把它們成爲一個樣例和屬性。咱們將會在本書中用一個觀察值和變量這個術語。數組

你能夠分清數據結構(本例中的長方形數組)和包含數據類型的數據內容。在上表所示的數據集中,PatientID是一個行,或者是一個標識符。AdmDate是一個日期變量,Age是一個連續型變量,Diabetes是一個記號變量,Status是一個序級變量。數據結構

R語言有不少結構來存儲數據,包括標量,向量,數組,數據框架和線性表。上表在R語言裏至關於一個數據框架。這個結構的差別給R語言在處理數據時提供了大量的靈活性。框架

R語言能夠處理的數據類型或者模式,包含數字型,字符型,邏輯型(TRUE或FALSE),複數(虛數)和行(字節)。在R語言中,PatientID,AdmDate和Age是數字變量,反之,Diabetes和Status是字符型變量。另外你須要分別告訴R語言PatientID是一個主標識符,AdmDate包含日期,Diabetes和Status是一個名義和序級變量。機器學習

R語言把主標識符稱做行名稱,把分類變量(名義變量和序級變量)稱做因素。咱們會在下一個章節講這些。你會在第三章學到日期變量。學習

相關文章
相關標籤/搜索