在本節中,咱們將首先討論相關性分析,它用於量化兩個連續變量之間的關聯(例如,獨立變量與因變量之間或兩個獨立變量之間)。迴歸分析是評估結果變量與一個或多個風險因素或混雜變量之間關係的相關技術。結果變量也被稱爲應答或因變量,風險因素和混雜因素被稱爲預測因子或解釋性或獨立變量。在迴歸分析中,因變量表示爲「 _y」_,自變量表示爲「 _x」_」。測試
在相關分析中,咱們估計了樣本相關係數,更具體地說是Pearson乘積矩相關係數。樣本相關係數,表示爲r,spa
介於-1和+1之間,並量化兩個變量之間的線性關聯的方向和強度。兩個變量之間的相關性多是正的(即一個變量的較高水平與另外一個變量的較高水平相關)或負的(即一個變量的較高水平與另外一個變量的較低水平相關)。3d
相關係數的符號表示關聯的方向。相關係數的大小表示關聯的強度。blog
例如,r = 0.9的相關性代表兩個變量之間強烈的正相關,而r = -0.2的相關性代表弱相關性。接近於零的相關性代表兩個連續變量之間沒有線性關聯。rem
須要注意的是,兩個連續變量之間可能存在非線性關聯,但相關係數的計算不會檢測到這一點。所以,在計算相關係數以前仔細評估數據老是很重要的。圖形顯示對探索變量之間的關聯特別有用。get
下圖顯示了四個假設情景,其中一個連續變量沿着X軸繪製,另外一個沿着Y軸繪製。it
情景1描述了強烈的正相關(r = 0.9),相似於咱們能夠看到的嬰兒出生體重與出生體重之間的相關性。class
情景2描述了咱們可能指望看到的年齡與體重指數(其隨着年齡增長而增長)之間的較弱關聯(r = 0,2)。變量
情景3可能代表青少年媒體暴露的程度與青少年發起性行爲的年齡之間缺少聯繫(r大約爲0)。im
情景4可能描述了每週有氧運動小時數與體脂百分比之間一般觀察到的強烈負相關(r = -0.9)。
一項小型研究涉及17名嬰兒,以調查出生時的胎齡(以周爲單位)和出生體重(以克爲單位)之間的關聯。
咱們但願估計胎齡與嬰兒出生體重之間的關係。在這個例子中,出生體重是因變量,孕齡是自變量。所以y =出生體重和x =胎齡。數據顯示在下圖中的散點圖中。
每一個點表明一個(x,y)對(在這種狀況下,孕周,以周爲單位,出生體重以克爲單位)。請注意,獨立變量位於水平軸(或X軸)上,因變量位於垂直軸(或Y軸)上。散點圖顯示胎齡與出生體重之間存在正向或直接關聯。胎齡越短的嬰兒出生體重越低,胎齡越長的嬰兒出生體重越高的可能性越大。
x和y的方差測量其各自樣本均值附近的x分數和y分數的變化性(
正如咱們對孕齡所作的那樣計算出生體重的方差,以下表所示。
計算總結以下。請注意,咱們只是簡單地將平均孕齡和出生體重的誤差從上表中的兩張表中複製到下表中並進行相乘。
絕不奇怪,樣本相關係數代表強正相關。
正如咱們所指出的,樣本相關係數範圍從-1到+1。在實踐中,對於正面(或負面)關聯而言,有意義的相關性(即臨牀上或實際上重要的相關性)可小至0.4(或-0.4)。還有統計測試來肯定觀察到的相關性是否具備統計顯着性(即統計顯着性不一樣於零)。