1、箱形圖box plot函數
1)箱型圖概念設計
箱形圖(Box-plot)又稱爲盒須圖、盒式圖或箱線圖,是一種用做顯示一組數據分散狀況資料的統計圖。因形狀如箱子而得名。blog
箱形圖於1977年由美國著名統計學家約翰·圖基(John Tukey)發明。它能顯示出一組數據的最大值、最小值、中位數、及上下四分位數。ip
2)箱形圖包含內容rem
"盒式圖"或叫"盒須圖""箱形圖"boxplot(也稱箱須圖(Box-whiskerPlot)須圖又稱爲箱形圖,其繪製須使用經常使用的統計量,能提供有關數據位置和分散狀況的關鍵信息,尤爲在比較不一樣的母體數據時更可表現其差別。
3)繪製步驟數據分析
4)做用(從數據的分佈來看)io
數據異常值class
一批數據中的異常值值得關注,忽視異常值的存在是十分危險的,不加剔除地把異常值包括進數據的計算分析過程當中,對結果會帶來不良影響;重視異常值的出現,分析其產生的緣由,經常成爲發現問題進而改進決策的契機。箱形圖爲咱們提供了識別異常值的一個標準:異常值被定義爲小於Q1-1.5IQR或大於Q3+1.5IQR的值。雖然這種標準有點任意性,但它來源於經驗判斷,經驗代表它在處理須要特別注意的數據方面表現不錯。這與識別異常值的經典方法有些不一樣。衆所周知,基於正態分佈的3σ法則或z分數方法是以假定數據服從正態分佈爲前提的,但實際數據每每並不嚴格服從正態分佈。它們判斷異常值的標準是以計算數據批的均值和標準差爲基礎的,而均值和標準差的耐抗性極小,異常值自己會對它們產生較大影響,這樣產生的異常值個數不會多於總數0.7%。顯然,應用這種方法於非正態分佈數據中判斷異常值,其有效性是有限的。箱形圖的繪製依靠實際數據,不須要事先假定數據服從特定的分佈形式,沒有對數據做任何限制性要求,它只是真實直觀地表現數據形狀的原本面貌;另外一方面,箱形圖判斷異常值的標準以四分位數和四分位距爲基礎,四分位數具備必定的耐抗性,多達25%的數據能夠變得任意遠而不會很大地擾動四分位數,因此異常值不能對這個標準施加影響,箱形圖識別異常值的結果比較客觀。因而可知,箱形圖在識別異常值方面有必定的優越性。[2] 基礎
偏態和尾重隨機數
比較標準正態分佈、不一樣自由度的t分佈和非對稱分佈數據的箱形圖的特徵,能夠發現:對於標準正態分佈的大樣本,只有 0.7%的值是異常值,中位數位於上下四分位數的中央,箱形圖的方盒關於中位線對稱。選取不一樣自由度的t分佈的大樣本,表明對稱重尾分佈,當t分佈的自由度越小,尾部越重,就有越大的機率觀察到異常值。以卡方分佈做爲非對稱分佈的例子進行分析,發現當卡方分佈的自由度越小,異常值出現於一側的機率越大,中位數也越偏離上下四分位數的中心位置,分佈偏態性越強。異常值集中在較大值一側,則分佈呈現右偏態;;異常值集中在較小值一側,則分佈呈現左偏態。下表列出了幾種分佈的樣本數據箱形圖的特徵(樣本數據由SAS的隨機數生成函數自動生成),驗證了上述規律。這個規律揭示了數據批分佈偏態和尾重的部分信息,儘管它們不能給出偏態和尾重程度的精確度量,但可做爲咱們粗略估計的依據。
數據的形狀
同一數軸上,幾批數據的箱形圖並行排列,幾批數據的中位數、尾長、異常值、分佈區間等形狀信息便一目瞭然。在一批數據中,哪幾個數據點出類拔萃,哪些數據點表現不及通常,這些數據點放在同類其它羣體中處於什麼位置,能夠經過比較各箱形圖的異常值看出。各批數據的四分位距大小,正常值的分佈是集中仍是分散,觀察各方盒和線段的長短即可明瞭。每批數據分佈的偏態如何,分析中位線和異常值的位置也可估計出來。還有一些箱形圖的變種,使數據批間的比較更加直觀明白。例若有一種可變寬度的箱形圖,使箱的寬度正比於批量的平方根,從而使批量大的數據批有面積大的箱,面積大的箱有適當的視覺效果。若是對同類羣體的幾批數據的箱形圖進行比較,分析評價,即是常模參照解釋方法的可視圖示;若是把受測者數據批的箱形圖與外在效標數據批的箱形圖比較分析,即是效標參照解釋的可視圖示。箱形圖結合這些分析方法用於質量管理、人事測評、探索性數據分析等統計分析活動中去,有助於分析過程的簡便快捷,其做用顯而易見。
5)JMP中作box plot
2、小提琴圖violin plot
1)概念
小提琴圖 (Violin Plot) 用於顯示數據分佈及其機率密度。
這種圖表結合了箱形圖和密度圖的特徵,主要用來顯示數據的分佈形狀。中間的黑色粗條表示四分位數範圍,從其延伸的幼細黑線表明 95% 置信區間,而白點則爲中位數。
箱形圖在數據顯示方面受到限制,簡單的設計每每隱藏了有關數據分佈的重要細節。例如使用箱形圖時,咱們不能瞭解數據分佈是雙模仍是多模。雖然小提琴圖能夠顯示更多詳情,但它們也可能包含較多幹擾信息。