格蘭傑因果 Granger causality

時間 2020-06-17

標籤因果 granger causality 简体版

原文原文鏈接

格蘭傑因果關係（Granger causality ）是基於預測的因果關係統計概念。根據格蘭傑因果關係，若是信號X1「格蘭傑Causes」（或「G-Causes」）信號X2，則X1的過去值應該包含有助於預測X2的信息，而且超過僅包含在X2的過去值中的信息。其數學公式基於隨機過程的線性迴歸模型（Granger 1969）。固然也有對非線性狀況的擴展，可是這些擴展在實踐中一般更難以應用。函數

格蘭傑因果關係（或「G因果關係」）於20世紀60年代發展起來，自那以來，已普遍應用於經濟學。然而，僅僅在過去的幾年裏，神經科學的應用開始流行起來。測試

我的解釋by Clive Granger

關於如何定義因果關係的話題讓哲學家們忙了兩千多年，可是如今都尚未獲得解決。這是一個使人深思的問題，有許多種答案試圖解釋因果關係，但都並不能使全部人信服，它仍然具備必定的挑戰性。研究者但願，若是他們認爲已經找到了一個「緣由」，這應該是一個深入的基本關係，而且擁有potential。ui

在20世紀60年代早期，我(Clive Granger)正在考慮一對明顯相互關聯的隨機過程，我想知道這種關係是否能夠分解爲一對單向關係。有人建議我看一下很是着名的數學家Norbert Weiner提出的因果關係的定義，因此我將這個定義（Wiener 1956）改編成實用的形式並進行了討論。spa

應用經濟學家發現這個定義便於理解和應用，而且它的具體應用開始出現。可是，有幾位做者表示，「固然，這不是真正的因果關係，它只是格蘭傑因果關係。」所以，從一開始，在實際應用中，使用Granger Causality這個術語來區別於其餘定義。3d

基本的「Granger因果關係」定義很是簡單。假設咱們有三項X_t，Y_t和W_t，而且咱們首先嚐試使用過去的X_t和W_t項來預測X_t+1。而後咱們嘗試使用過去的X_t，Y_t和W_t來預測X_t+1。若是根據標準成本函數，發現第二個預測更成功，那麼Y的過去彷佛包含有助於預測X_t+1的信息，這些信息並不包含在過去的X_t或W_t。特別是，向量W_t多是一個可解釋的變量。所以，Y_t會「格蘭傑致使」X_t+1，若是（a）Y_t出如今X_t+1以前; 而且（b）它包含可以預測X_t+1中有用的信息，這些信息在其餘合適的變量中找不到。orm

固然，W_t越大，選擇的內容就越仔細，Y_t越嚴格。最終，Y_t可能彷佛包含有關X_t+1的獨特信息，這在其餘變量中找不到，這就是爲何「因果關係」標籤多是合適的。blog

這個定義很大程度上依賴於緣由cause出如今效應effect以前，這是大多數因果關係定義的基礎，但並非所有。一些含義是Y_t可能致使X_t+1，X_t致使Y_t+1，至關因而一個反饋隨機系統。可是，對於肯定性過程（例如指數趨勢）是不多是casuse或者caused by另外一個變量。數學

人們廣泛認爲，雖然它不能涵蓋因果關係的全部方面，但足以在實際測試中得以應用。it

Mathematical formulation

G-因果關係一般在線性迴歸模型的背景下進行測試。爲了說明，考慮兩個變量X₁和X₂的二元線性自迴歸模型：io

其中p是包含在模型中的滯後觀測值的最大數量（模型階數），矩陣A包含模型的係數（即，每一個滯後觀測值對X₁(t)和X₂(t)的貢獻，E₁和E₂是每一個時間序列的殘差（預測偏差）。在第一（或第二）方程中包含X₂（或X₁），若是E₁（或E₂）的方差下降了，則稱X₂（或X₁） Granger-(G)-causes X₁（或X₂）。換句話說，若是A₁₂中的係數與0顯著不一樣，X₂ G-引發X₁。這能夠經過F-test, 根據0假設A₁₂ = 0，假設X₁和X₂協方差平穩，G因果互做用的大小能夠用相應的F統計量的對數來估計（Geweke 1982）。實際中要注意模型選擇標準，如貝葉斯信息標準（BIC，（Schwartz 1978））或Akaike信息標準（AIC，（Akaike 1974））能夠用來肯定合適的模型階數p。

正如上面所述，G因果關係能夠很容易地擴展到n變量的狀況，其中n> 2，估計一個n變量自迴歸模型。在這種狀況下，若是X₂的滯後觀測值有助於預測X₁時，而且同時也考慮到全部其餘變量X₃ ... X_N的滯後觀測值，那麼X₂ G-將致使X₁。（這裏，'X₃ ... X_N對應於上一節中集合W中的變量; 另請參閱Boudjellaba et al。（1992）關於使用自迴歸移動平均（ARMA）模型的解釋。）此多變量擴展版本，有時被稱爲'條件'G因果關係（Ding et al. 2006）是很是有用的，由於多個變量之間的重複配對分析有時會產生使人誤解的結果。例如，重複的雙變量分析將沒法消除下圖中兩種鏈接模式的歧義。相比之下，條件/多變量分析將推斷X到Y的因果關係，只要X中的過去信息有助於預測將來Y和超越beyond這些信號由Z爲中介。另外一個有價值的條件G因果關係例子: 單個信號源驅動兩個具備不一樣時間延遲的輸出。雙變量分析，但不是多變量分析，會錯誤地推斷出從較短延遲輸出到較長延遲輸出的因果聯繫。

Two possible connectivities that cannot be distinguished by pairwise analysis. Adapted from Ding et al. (2006).

上述G因果公式的應用對數據作出了兩個重要假設：（i）它是協方差平穩的（即每一個時間序列的均值和方差不隨時間變化）;（ii）它能夠能夠經過線性模型進行充分描述。

Spectral G-causality

經過傅里葉方法，能夠檢查譜Spectral域中的G因果關係（Geweke，1982; Kaminski等，2001）。這對於神經生理學信號很是有用，其中頻率分解一般是比較有意思的。直觀地說，從X₁到X₂的頻譜G因果關係度量了在頻率f處，X₂貢獻給X₁的分數。

爲了完整性，咱們在下面給出了譜G因果關係的數學細節。經過傅里葉變換能夠獲得，

矩陣A的元素爲，

從新寫原來的方程，

其中，

H稱做爲傳遞矩陣（transfer matrix），如今能夠獲得普矩陣S，

*表明矩陣的共軛轉置，Σ 是殘差E(t)的協方差矩陣。從節點j到i的譜G-causality爲，

其中S_ii(f)是變量i在頻率爲f處的功率譜。（該分析改編自（Brovelli等2004; Kaminski等2001））

Chen et al (2006)的工做指出，將Geweke提出的譜G因果關係應用於多變量（> 2）神經生理學時間序列有時會致使在某些頻率處的負因果關係，這是一個有點違背（evade）物理解釋的結果。他們提出了修改後的Geweke度量的條件版本，它能夠經過使用分塊矩陣（ partition matrix）方法來克服這個問題。 Breitung和Candelon（2006）和Hosoya（1991）討論了譜G因果關係的其餘版本。

與譜G因果關係密切相關的兩種方法是partial directed coherence（Baccala＆Sameshima，2001）和 directed transfer function定向傳遞函數（Kaminski et al。2001;注意這些做者代表了定向傳遞函數和譜G-因果關係之間的等價性）。對於這些方法之間的比較結果，參見Baccala和Sameshima（2001），Gourevitch等人（2006）和Pereda等人（2005年）。與G因果關係的原始時域公式不一樣，這些頻譜測量的統計特性還沒有徹底闡明。這意味着顯着性檢驗一般依賴於替代（surrogate）數據，而且信號預處理（例如，平滑，過濾）對測量因果關係的影響仍不清楚。

Limitations and extensions

Linearity

G因果關係的原始公式只能給出有關信號線性特徵的信息。如今已經存在對非線性狀況的擴展，可是這些擴展在實踐中可能更難以使用，而且他們的統計特性不太清楚。在Freiwald等人的方法中。（1999）將全球非線性數據分爲局部線性鄰域（參見Chen et al.2004），而Ancona et al。（2004）使用徑向基函數方法來執行全局非線性迴歸。

Stationarity

G-因果關係的應用假定分析信號是協方差平穩的。假設非平穩信號的足夠短的窗口局部平穩，能夠經過使用窗口技術（Hesse et al.2003）來處理非平穩數據。一個相關的方法利用了許多神經生理學實驗的試驗性質（Ding等，2000）。在這種方法中，來自不一樣試驗的時間序列被視爲具備局部平穩段的非平穩隨機過程的單獨實現。

Dependence on observed variables

關於G因果關係的全部實現的通常評論是，它們徹底依賴於適當的變量選擇。顯然，沒有歸入迴歸模型的因果因素不能用來表示輸出。所以，G-因果關係不該被解釋爲直接反映物理因果鏈。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。