(二)數據可視化

 經過建立和解讀直方圖、柱狀圖和頻數圖,學習數據可視化基礎知識。ide

優達學城學員背景普遍,若是咱們想知道都有哪些人,參加了這些課程,該怎麼辦?如今看看樣本量爲50 的一組數據

你們花4秒鐘的時間看看這個表格,並告訴我這個樣本中的大多數學生都來自哪一個國家

大多數學員都來自中國,可是隻花 4 秒鐘的時間來觀察這一表格可能很難看出,你可能掃了一眼表格,發現上面寫了好多「中國」,所以可以感受到哪一個國家出現的機率最高,你的大腦能夠自動這麼思考,可是對於統計學,咱們須要用簡單的方式規範化這一流程,若是你此次沒有猜對也沒事,這個小測驗的最終目標就是向你展現 有了表格也是很難快速得出結論的,有什麼更好的方法呢?學習

咱們能夠建立一個頻次表,即數出每一個國家出現的頻次,個人作法是逐個計數spa

最終結果應該是這樣的 注意它們的總和應該是50,即樣本的總觀察次數,經過頻次表咱們能夠輕鬆地看出大多數學生來自中國。3d

咱們不只要研究絕對數值,還要看看這些數字之間的相互關係,換句話說,咱們可能想要知道來自每一個國家的學員所佔的比例,瞭解有多少學員來自每一個國家構成一個總體,這就叫作相對頻率。code

例如 這個樣本的 50 名學員中有2名來自加拿大2/50 = 0.040.04 就是來自加拿大的學員所佔的比例

經過相對頻率,還能夠看出在總體中所佔的比例,若是咱們包含了吉爾吉斯斯坦,吉爾吉斯斯坦的比例就是 0,由於這 50 名學員中沒有一位來自吉爾吉斯斯坦,若是不看國家而是看星球,會發現全部學員都來自地球,所以地球的比例是 1,也就是說 50 名學員都來自地球,50/50=1。blog

全部比例都始終在 0 到 1 之間或等於 0 或 等於1。數學

對於任何頻率表來講,相對頻率(用比例表示)相加等於1。這表示表示咱們考慮了全部狀況。event

如今咱們來分析下這個頻率表,來自美國的學員所佔的比例是多少?來自印度的學員所佔的比例呢?對於歐洲和亞洲 哪一個地區的學員更多?
從表中能夠看出 有 0.2 的學員來自美國,有 0.16 的學員來自印度。
從表中能夠看出全部歐洲國家是英國、德國和瑞典;全部亞洲國家是中國、印度、日本和巴基斯坦。
歐洲學員的總比例是0.04+0.06+0.02=0.12
亞洲學員的總比例是0.24+0.16+0.16+0.02=0.58
看來亞洲學員的比例更高
View Code

顯示相對頻率的另外一種方式是百分比,百分比很是好用,由於和不少人同樣,我我的甚至包括你在內,都不喜歡小數和分數,若是咱們用百分比來表示相對頻率的話,咱們就可使用整數了,百分比實際上也是一種比例,只是咱們將它乘以 100 並稱之爲百分比。class

百分比的範圍是從 0% 到 100% 就像比例是從 0 到 1 同樣。一樣的 全部百分比之和應該等於 100%。容器

這裏有好多的數據,咱們能夠經過只看各個洲的數據來簡化流程。

 

 

如今數據更加簡化了,雖然這個表格頗有意思,給咱們提供了新的信息,可是隻經過這個表格咱們並不知道有多少學員來自各個國家,建立這個表格後給咱們帶來了便利,由於咱們須要查看的類別變少了,在這種狀況下是 3 個類別,但在過程當中也丟失了一些信息 即關於特定國家的信息,在建立頻率分佈表時 有時候簡便性和信息性之間存在利弊關係,可是不能說哪一種方法就是正確的數據呈現方式,徹底取決於你要回答哪一種問題。

在這種狀況下,若是你想知道有多少學員來自北美,這麼整理數據就是最佳方法

可是若是你想知道有多少學員來自印度或其餘特定國家,則這麼整理數據就是最佳方法,關鍵在於根據你要回答的問題知道如何整理數據。

 以前咱們分析學員都來自哪一個國家,如今咱們來分析下他們的年齡,這是一個學員年齡樣本,一樣是 50 我的

 

如何像分析國家數據同樣分析這一數據?頻率數據中再也不是國家而是年齡,如何建立這個表格?須要多少行?須要 50 行 每行表示一名學員?或者 66 行,每行表示一個年齡 從 10 歲到 75 歲?8 到 10 行,由於最容易理解?取決於你對數據進行分組的方式?或者 2 行 一行表示 50 歲以上的人數,一行表示 50 歲如下的人數?

咱們能夠隨便分組這一數據,實際上,咱們能夠只要兩行,一行表示小於 50 歲的學員人數,一行表示大於 50 歲的人數,可是咱們不須要這麼分組,甚至能夠每一個年齡一行,因此能夠是 101112 歲,而後數數有多少學員年齡是 10 歲,有多少是 11 歲,但這不是最簡便的方式,由於可能全部年齡的出現頻率是 1 次,少數幾個是 2 次,那麼爲每行選擇一個範圍呢?例如 019 歲,2039 歲,而後數數有多少學員是在 019 歲,2039 歲等等,這就叫作區間或容器或桶,大多數狀況下 咱們將稱之爲區間或容器,在這種狀況下容器大小是 20,由於它包括 0
View Code

咱們來建立一個組距是 20 的頻率圖表

給出一組混亂無章的數據,咱們能夠經過頻率表輕鬆地對數據可視化,在這種狀況下 咱們劃分了四個容器,容器大小是 20,咱們能夠計算落入每一個區間的學員數量,如今咱們進一步介紹對這一數據進行可視化的方法。

如今請你繪製一個圖表,這時 X 軸 表示年齡,Y 軸 表示頻率,你須要針對這組數繪製一個柱狀圖 並顯示每一個柱的高度應該是多少

 

剛剛建立了一個組距爲 20 的直方圖,其實咱們能夠建立任何組距大小的直方圖,組距大小也稱爲區間大小。組距愈來愈大的情形,能夠看到如今每一個區間內的觀察值愈來愈多,若是咱們不斷讓組距愈來愈大,最終會很難看清直方圖的形狀,由於組距太大了。最終每一個分組裏會有太多的數據,直方圖的形狀甚至都沒法識別了。

組距是指對頻率進行計數的區間

相關文章
相關標籤/搜索