6-統計學-描述統計

時間 2020-06-24

標籤統計學描述統計简体版

原文原文鏈接

1.什麼是統計學，什麼是描述統計，什麼是推斷統計

統計學（statistics）：收集、處理、分析、解釋數據並從數據中得出結論的科學。數據庫

描述統計（discriptive statistics）工具

描述統計（discriptive statistics）:研究的是數據收集、處理、彙總、圖表描述、歸納與分析等統計方法。
描述統計其實就是對數據進行整體特徵的概述，例子：說一下班級此次考試的狀況如何spa

推斷統計（inferential statistics）設計

推斷統計（inferential statistics）:是研究如何利用樣本數據來推斷整體特徵的統計方法
推斷統計實際上是創建在描述統計的基礎之上，在對整體數據有了大體的瞭解以後，運用一些分析方法，對數據進行預測，並達到統計決策的目的，其實不論是在統計學上，仍是在實際的業務分析中，咱們作分析的終極目的就是用來得出咱們結論，應用於決策。例如：房價預測，經過預測數據來進行銷售，用戶看到房價走勢，若是一路走高，是否是要提前下手。3d

2.統計研究的步驟

一、設計code

全過程最關鍵的一步，良好的開端是成功的一半選題--明確研究目的--提出假設--明確整體範圍--確立觀察指標--控制研究中的偏移--給出具體的研究方案orm

二、收集blog

收集數據，來源數據庫，問卷等ip

三、整理io

數據整理很是重要，如今的數據處理工具也比較好用，必定要把數據清洗乾淨，數據清洗好了才能得出正確的結論

四、分析

統計描述：瞭解樣本數據的狀況，是所有工做的基礎，是儘可能精確、直觀而全面的對所得到的樣本進行呈現

統計推斷：從樣本信息外推到整體，以得到對所感興趣問題的解答

參數估計：樣本---->所在整體特徵

3.描述統計

從圖中咱們能夠獲取什麼？

集中趨勢
高峯組段在什麼位置

離散趨勢
數據分佈範圍是什麼，分散程度如何

分佈形狀
是否對稱，分佈曲線的形狀

正負偏

分佈特徵
偏態 峯態

集中趨勢

均數（mean）

描述一組數據在數量上的平均水平

整體均數和樣本均數的符號

均數的優勢：

高度濃縮了數據的精華，使大量的觀測數據轉變成一個表明性的數值。比較敏感，數據任何一個值發生變化，均數都會隨之改變。

你們熟知、都比較喜歡用、便於比較和傳播

均數的缺點：

大鍋飯：把各個觀測數據之間的差別性掩蓋了

均數受極值的影響很大

中位數（Median）

在均數很差用的時候，咱們能夠考慮使用中位數

將全體數據從小到大排列，在整個數列中處於中間位置的那個值就是中位數

個數爲奇數的中間的那個數字，個數爲偶數中間倆個數字相加除以2

中位數的優勢：

不受極端值的影響，在具備個別極大或極小值的分佈數列中，中位數比均數更具備表明性

中位數的缺點：

不是全部人都能理解

損失信息：只考慮居中位置，其餘變量值比中位數大多少或小多少，它沒法反映出來，因此咱們也是隻能看到部分信息。

中位數的應用場景：對於對稱性的數據，優先均數，僅僅對於均數不能使用的狀況才使用中位數加以描述。

衆數

一組數據當中，出現次數最多的那個數，工做中用的不多

Excel如何使用：均數、中位數、衆數

均數：average()

中位數：median()

衆數：mode()

離散趨勢

提問：若是用平均數來表明樣本平均水平的話，對個體而言，什麼指標能夠表明其離散程度大小

離均差：x-μ

個體偏離均值的程度

提問：能否用離均差的總和來表示整個樣本的離散程度

不能夠，離均差有正負之分，加和會抵消爲0

那怎麼辦，怎麼解決正負號的問題？

能夠考慮絕對值

but這種方式不便於計算

該怎麼辦，怎麼找到一種既好算，又能處理正負號的問題？

求離均差的平方和

可是若是比較兩個樣本的離均差，一個樣本量是10個，一個是1000個，實際上兩者的離散程度是同樣的，可是由於數量不一樣，形成平方和相加和數值差別很大，這該怎麼辦？

顯然，咱們發現離均差平方和的大小跟樣本量有關

若是咱們可以把離均差平方和/樣本量，是否是就解決了這個問題

那其實這個就是方差的概念