在數據分析思惟當中,有一個很是重要的概念——反事實。機器學習
文末有福利~
學習
也就是說咱們只能想象未發生的事情,而不能判定將來,在數據分析中叫作挖掘預測。所以正確的判斷因果關係很是難,不管在工做仍是平常生活中。尤爲是對於剛剛入門數據分析的人來講,很容易陷入反事實的陷阱之中。3d
假設有這麼一個場景:我昨天沒有睡好,天又下雨,結果我開車出去撞了護欄。cdn
同時他又假設如下陳述均爲事實:blog
做者分析,爲何你會以爲「下雨」是一個緣由:事件
若是當天是天晴,那麼天晴能不能成爲事故的一個緣由呢?大部分人可能會認爲天晴做爲事故的一個緣由比較奇怪。深度學習
這多是由於咱們有個潛在假設,就是天晴是常態的,而下雨不是常態。但若是一個地方一天 24 小時,一年 365 天都在下雨,那麼天晴就成了一個不正常的狀態。在這種狀況下,天晴反而讓我不習慣,最後讓我撞到護欄上去了。數據分析
因此咱們在說「下雨」是一個緣由時,背後其實已經在潛在假設正常狀態是指天晴了。it
由此他提出一個觀點:咱們在分析緣由時,潛在假設了一個正常的參考系。io
就像劃火柴着火,若是你問緣由是什麼,人們會說是劃火柴,而不會說是存在氧氣。
認知科學家、心理學家 Steven Pinker (史蒂芬·平克) 在《思想本質》裏解釋說,咱們一般把易於識別的那個因素看成緣由:
人們莫名其妙地將其中一個必要條件識別出來,以此做爲一個事件的緣由,同時卻將其餘條件做爲該事件發生的動因和輔助因素,即便這些條件與那個被識別出的緣由是同樣不可或缺的。這些必要條件間的區別並不在於物理事件間的鏈接或它們所遵循的規律,而在於與某些其餘事態的隱性對比。
平常生活中的因果判斷,和咱們的認知,即大腦對於因果的理解有關係。
咱們來考慮這麼一個問題:
一輛有軌電車立刻要撞向 5 個絕不知情的鐵路工人。假設此時你正站在交換機旁邊,你能夠將電車扳到另外一條軌道上,但那樣會撞上另外一個絕不知情的鐵路工人。你會扳動開關嗎?
而後想象另外一個場景:
你站在一座大橋上俯瞰,你能夠扔下重物讓電車中止,以免撞向 5 個工人,而惟一的重物是你旁邊的胖子。你會把他扔下去嗎?
大多數人在第一種狀況中選擇會,而第二種狀況選擇不會。一樣是犧牲 1 人救 5 人,爲何會有這樣的差別呢?
平克經過人類語言中動詞的研究,解釋說,人類的因果關係識別基於一個「力動態」的心智模型。
在因果場景中,一個參與者被稱爲「主動力」:一個被設想爲具備運動或靜止內在傾向的實體。另外一個參與者被叫作「拮動力」:一個在主動力上施加外力的實體,這個外力一般是對主動力內在傾向的副作用力。
若是拮動力的力量大於主動力的內在傾向性,那麼主動力從運動狀態變爲靜止,或反之。若是拮動力的力量小於主動力的內在傾向性,那麼主動力則保持原始狀態
簡單說就是,關於有因果相互做用的兩個物體,咱們會假設一個是有內在運動或靜止傾向的實體,而另外一個是加之在它身上的力量(因)。最後這個實體是否運動(果),與它內在傾向性和外在力量大小的差別決定。
就像下圖,方塊和橢圓分別表明有內在靜止和運動傾向的主動力,箭頭表明拮動力(注意有大小之分)。紅色表明主動力最終運動,藍色表明靜止,那麼有 4 種狀態:
一、因果關係三層級
開篇咱們提到了「反事實」,這是《爲何:關於因果關係的新科學》中的概念。這本書的做者 Judea Pearl (朱迪亞·珀爾)是圖靈獎得主,計算機科學家和哲學家。
他指出,因果關係有 3 個層級。看下面這張圖應該能夠大概明白:
如今的機器學習、深度學習還處在第一層。
第二層是干預,例如頭疼,服用阿司匹林。是在干預一個變量(人體內阿司匹林的量),以影響另外一個變量(頭疼的狀態)。
最高層「反事實」,假如吃完阿司匹林,頭不疼了。那是由於吃藥引發的嗎?仍是由於我聽到了某個好消息?仍是由於我當時吃的食物?咱們須要能乘坐時光機回到過去,改變歷史:假如我當時沒有吃阿司匹林,會發生什麼?
引用書裏的一張圖,美國詩人 Robert Frost (羅伯特·弗羅斯特)的做品《未選擇的路》體現了反事實的概念:
二、相關不是因果
統計學裏有個段子:一個國家的人均巧克力消費量和諾貝爾獎得主的人數之間存在正相關。
那咱們是否是要多吃巧克力呢?
事實多是,在富裕的西方國家,吃巧克力的人更多,在教育和科研上投入更多,於是產生更多諾獎得主。這個「富裕」,同時致使了更多的巧克力消費和更多的諾獎得主,是一個「混雜」因子。
混雜是一個一直以來困擾統計學家問題。朱迪亞·珀爾指出,統計學家老是高估或者低估混雜的影響
例如,在有些研究中,能看到一長串被控制的變量:收入、年齡、種族、宗教、身高、頭髮顏色、性取向、健身頻率等等。而有的時候,又不肯意去控制一些變量。
混雜之因此在統計學中如此難解決,根據做者的觀點,是由於它不是一個統計學概念,而是一個因果概念,屬於因果關係之梯第二層。
可是在日常的工做中,仍是有一些方法可讓咱們更好地區分相關與因果。在《緣由與結果的經濟學》裏,做者提出,判斷因果仍是相關,能夠先問 3 個問題:
正確理解因果關係,是思惟升級的利器。
關注個人公衆號「數據分析不是個事兒」,回覆「素材」,便可得到數據分析大禮包