R語言數據可視化分析案例:探索BRFSS數據

原文連接:http://tecdat.cn/?p=9284

加載包 

library(tidyr)
library(knitr)
opts_chunk$set(echo = TRUE, fig.align = "center")

載入資料

load("brfss2013.RData")

第1部分:數據

描述如何收集樣本中的觀測值,以及此數據收集方法對推斷範圍(可歸納性/因果關係)的影響。http://www.cdc.gov/brfss/,以及下面的「有關數據的更多信息」部分。python

「 BRFSS是一項橫斷面電話調查,州衛生部門每個月經過座機和電話進行調查,並得到標準化問卷和CDC的技術和方法支持。在進行BRFSS座機電話調查時,訪問員從一個家庭中隨機選擇的成年人那裏收集數據。在進行BRFSS問卷的電話版本時,訪問員從成年人中收集數據。」面試

推論範圍(廣泛性/因果關係):算法

廣泛性:調查數據是從50個州和美國領土收集的,這使得數據看起來足夠隨機樣本,從而能夠將其推廣到整個美國人口。動畫

因果關係:因爲全部參與者均未接受指定的治療和對照組的治療-沒法假設因果關係-只能測量相關性。spa

方法論,偏見和須要改進的方面的問題:經過電話調查,有可能低估了幾種類型的我的:code

1.沒有座機或手機的我的orm

2.拒絕回答或參加電話調查的我的。視頻

3.在進行調查時沒法經過電話聯繫/沒法聯繫到調查的我的。rem

採訪問題的答案還沒有經過驗證,這意味着受訪者能夠經過如下方式修改其回答:get

1.過分報告理想的行爲和/或特徵。

2.漏報不良行爲。

3.誇大或歪曲某些特徵,例如身高,學歷或收入。

4.錯誤地提供關鍵信息。

5.參與的機構之間的面試作法和問題集可能不一致。

供之後參考,若是數據集包含有關每一個訪談的詳細信息,例如收集數據的時間和訪談的持續時間,將頗有用。


第2部分:研究問題

研究問題1:體重指數(BMI)是否與受訪者本身的健康見解相關?

這個問題探討了BMI「正常」的人是否對本身的健康情況有更好的認識。雖然BMI並非完美的健康指標,但仍被公認爲健康的初始指標。

使用的總變量:2

genhlth-通常健康

X_bmi5cat-將BMI分爲4類(體重太輕,正常,超重,肥胖)的計算變量

————-

研究問題2:一我的的夜間睡眠時間與他們的能量水平之間是否存在相關性?性別之間有區別嗎?

這是一個有趣的問題,由於常常吹噓睡眠是維持良好整體健康的重要組成部分。研究代表,那些睡眠時間少於5小時的人甚至更容易患慢性或嚴重疾病。

使用的總變量:3

sleptim1-報告的睡眠時間

qlhlth2-在過去30天中,有幾天被報告爲「盡心盡力」

性別-報告的生物性別

————-

研究問題3:整體生活滿意度與受教育程度之間是否存在相關性?性別之間有什麼區別嗎?

這個問題將試圖看看整體生活滿意度和我的受教育程度之間是否存在任何關聯。一些研究代表,與受教育程度較低的人相比,受教育程度較高的人較少出現婚姻問題,而且可能享有更好的健康情況。它將進一步探討男性和女性之間是否存在任何差別。

使用的總變量:3

滿意-總體生活滿意度

教育-教育水平

性別-我的的生物性別

第3部分:探索性數據分析

研究問題1:體重指數(BMI)是否與受訪者自身健康的見解相關?

load("brfss2013.RData")
dim(brfss2013)
## \[1\] 491775    330
``````
q1 <- select(brfss2013,genhlth,X_bmi5cat) %>% na.omit()
dim(q1)
``````
## \[1\] 463275      2

擁有460,000多個觀察值,經過表格進行觀察更容易,以下所示:

prop.table(table(q1$genhlth,q1$X_bmi5cat),2)
##            
##             Underweight Normal weight Overweight      Obese
##   Excellent  0.19987805    0.26019496 0.17373887 0.07933813
##   Very good  0.26402439    0.35069868 0.35401238 0.26824837
##   Good       0.26146341    0.24667514 0.30698451 0.37088006
##   Fair       0.15829268    0.09751640 0.11943759 0.19913468
##   Poor       0.11634146    0.04491484 0.04582665 0.08239876

 表中 有大量的數據。 

g1 <- ggplot(q1) + aes(x=X\_bmi5cat,fill=genhlth) + geom\_bar(position = "fill")
g1

每列表明4種BMI類別(體重太輕,正常,超重,肥胖)和描述本身健康情況的受訪者比例。

能夠得出結論,在必定程度上,對這一問題的回答是「是」。個體的BMI與他或她本身對健康的見解之間彷佛存在關聯。

研究問題2:一我的的夜間睡眠時間與他們的能量水平之間是否存在相關性?性別之間有區別嗎?

##     qlhlth2          sex         sleptim1     
##  Min.   : 0.00   Male  :162   Min.   : 2.000  
##  1st Qu.: 2.00   Female:287   1st Qu.: 6.000  
##  Median :15.00                Median : 7.000  
##  Mean   :15.56                Mean   : 7.013  
##  3rd Qu.:28.00                3rd Qu.: 8.000  
##  Max.   :30.00                Max.   :12.000
## Warning: Removed 12 rows containing non-finite values (stat_smooth).
## Warning: Removed 12 rows containing missing values (geom_point).

睡眠時間和充滿能量的天數之間彷佛整體上呈正相關。女性的相關性彷佛比男性略強,由於男性的數據分佈更普遍。

++++++++++++++++++++++++

研究問題3:整體生活滿意度與受教育程度之間是否存在相關性?性別之間有什麼區別嗎?

## # A tibble: 4 x 2
##   lsatisfy          count
##   <fct>             <int>
## 1 Very satisfied     5378
## 2 Satisfied          5506
## 3 Dissatisfied        598
## 4 Very dissatisfied   161
q3 %>% group_by(educa) %>%   summarise(count=n())
## # A tibble: 6 x 2
##   educa                                                        count
##   <fct>                                                        <int>
## 1 Never attended school or only kindergarten                      10
## 2 Grades 1 through 8 (Elementary)                                496
## 3 Grades 9 though 11 (Some high school)                         1078
## 4 Grade 12 or GED (High school graduate)                        3708
## 5 College 1 year to 3 years (Some college or technical school)  3055
## 6 College 4 years or more (College graduate)                    3296
q3 %>% group_by(sex) %>%   summarise(count=n())
## # A tibble: 2 x 2
##   sex    count
##   <fct>  <int>
## 1 Male    4078
## 2 Female  7565

男性和女性的教育水平和整體生活滿意度之間彷佛整體上呈正相關。至少完成了高中(或同等學歷)的人的滿意度彷佛更高。數據中還存在某些異常值,其中一些反饋者在沒有受過教育的狀況下會「滿意」或「很是滿意」。因爲大多數人口至少已從高中畢業,所以該數據彷佛準確地表明瞭受訪者的分佈。


最受歡迎的看法

1.R語言動態圖可視化:如何、建立具備精美動畫的圖

2.R語言生存分析可視化分析

3.Python數據可視化-seaborn Iris鳶尾花數據

4.r語言對布豐投針(蒲豐投針)實驗進行模擬和動態

5.R語言生存分析數據分析可視化案例

6.r語言數據可視化分析案例:探索brfss數據數據分析

7.R語言動態可視化:製做歷史全球平均溫度的累積動態折線圖動畫gif視頻圖

8.R語言高維數據的主成分pca、 t-SNE算法降維與可視化分析案例報告

9.python主題LDA建模和t-SNE可視化

相關文章
相關標籤/搜索