全文共
5960字,預計學習時長
12分鐘
要是大家可以洞察時間所播的種子,知道哪種會成長,哪一顆不會成長……
《麥克白》,威廉·莎士比亞
生活充滿不肯定性,以至於無人能夠預測將來。布萊士·帕斯卡爾(Blaise Pascal)曾說過:「咱們在一個遼闊的區域內航行,四處漂流不定,從這頭被推到那頭。」沒人知道死亡什麼時候會降臨,生活什麼時候會變得艱難困苦,什麼時候又會給咱們點甜頭嚐嚐。算法
人這一輩子,總會在某個時刻明白這個苦澀的道理。儘管如此,在這個未知的宇宙中,人類總能克服困難,將生活過得層次分明。咱們砌磚建房,咱們將錢存入銀行,咱們在爲本身存下退休金的同時,還給子孫後代留下遺產。咱們構成穩定的社會關係,建造記念碑使生命延續。咱們可以感知將要發生的事情並加以控制,這是咱們當之無愧的能力。
人類誕生於紛繁複雜、變幻無窮的進化過程,可以具有上述能力真的是很是偉大。那麼,這種從不肯定的將來中得到肯定感的能力,是怎樣發展出來的呢?
貝葉斯大腦假說(Bayesian brain hypothesis)認爲,人類行爲背後有着一種深層隱性結構,這一結構能夠追溯到生命的本質。假說認爲,從某種程度上來講,大腦除了預測並實現一個理想的將來外,一無可取。大腦符合生命系統的規則,老是在和天然環境爲它們準備的「驚喜」苦戰。
圖自Unsplash/ Ramón Salinero攝微信

穩態重要性機器學習
穩態(homeostasis)是蘊含在全部生命背後的基本原理。Homeostasis一詞是沃爾特·坎農(Walter Bradford Cannon)在1926年根據拉丁文homeo(平等)和stasis(靜止)創造。穩態指維持生命系統內部的物理和化學過程,使得生命系統保持完整,防止消散,是一種可以與天然界的無序傾向相抵抗的自組織原則。
安東尼奧·達馬西奧(Antonio Damasio)在其著做《事物的奇怪秩序》(The Strange Order of Things)中指出,穩態一詞是有誤導性的,其含義遠遠大於靜止不動。生命是有自主性的,不會知足於維持當前的功能。假設選定兩個具備競爭性的有機體,其中一個知足於當前的生命狀態,另外一個則會不斷優化,以更好地適應將來的生活。那麼哪個有機體有更大的概率存活數億年呢?現在咱們發現,生命老是在無聲無息地將本身推向遙遠的將來,這是由於生命已經在過去進化出一些特質,可以激勵它不斷向將來進軍。
保持運轉,保持呼吸,不斷前進。
德爾菲的女祭司/John Collier繪學習
預測將來
人類想方設法地想要預測並改變將來。在古代,算命是牧師和薩滿才能掌握的複雜技藝。最著名的例子莫過於德爾菲神諭(Oracle of Delphi),數百年間希臘政客和羅馬帝王都從神諭中尋求建議和訊息。古代政治充滿不肯定性,當時的人們想要減小這種不肯定性,也無可厚非。
可是從現代科學的角度來看,咱們已經意識到在恍恍惚惚的狀態下,吸入有毒氣體或打啞謎對於洞察世界的運做毫無幫助。爲了減小將來的不肯定性,咱們(以及咱們的大腦)須要採起一種更加普通的方法,即基於當前對世界的認識,儘量地對將來做出預測。好比,基於我今天對世界的觀察,預測明天將會發生什麼,並思考我應該怎樣指導本身的行爲,使得結果更加有利於生存。
貝葉斯定理
當今備受尊崇的托馬斯·貝葉斯(Thomas Bayes)在18世紀提出了這個簡潔、不起眼的定理。這必定理在他在世時並未發表,但以後卻在各個領域發揮出巨大的做用。貝葉斯定理真的很是簡單,但這並不妨礙它成爲當代認知科學最煊赫一時的理論之一,給貝葉斯這一名字帶來榮譽。
下圖展示了正在閃着藍光的貝葉斯定理:
貝葉斯定理優化
貝葉斯定理指出,有隨機事件A和B,在B發生的狀況下A發生的可能性P(A|B)等於,在A發生的狀況下B發生的可能性P(B|A)乘以A發生的可能性P(A),再除以B發生的可能性P(B)。
貝葉斯定理使得咱們可以根據已知的相關事件發生的機率推算出某件事情發生的機率。
讀者可能已經猜到爲何貝葉斯定理在預測將來時那麼有用了。
貝葉斯定理最常應用於天氣預測。天氣永遠充滿不肯定性,體現了大天然的殘酷。
圖自Unsplash/Elliott Engelmann攝編碼
假設你在散步時出於某種緣由迷失在了一片乾燥炎熱、一眼望不到頭的沙漠裏。因爲你本來只打算出門去公園散散步,因此只帶了一小瓶飲用水。在沙漠中困了三天以後,你很是口渴。清晨,你擡頭望向天空,細細搜尋雲彩,最後在地平線上方看到了一小片雲。
那麼這一片雲帶來降雨、將你從渴死的邊緣拯救回來的概率是多少呢?
這裏須要計算的是機率P(降雨|雲朵),即在你看到一片雲的狀況降低雨的條件機率(conditional probability)。爲此還須要:
1. P(雲朵|降雨):若是某一天是雨天,那麼是否從這天開始的時候天空中就有云呢?假設沙漠中80%的雨天都是從多雲開始的。這也就意味着很大機率上,雨天是從多雲開始的。
2. P(雲朵):沙漠中出現多雲天氣的機率比較低,爲10%。
3. P(降雨):降雨的機率更低。沙漠中每每每一百天才會下一次雨,因此降雨的機率爲1%。
由此可知,在看到一片雲的狀況降低雨的機率爲:
P(降雨|雲朵)=P(雲朵|降雨)*P(降雨)/P(雲朵)=0.8*0.01/0.1=0.08
那麼在看到雲以後,你能夠得出下雨的機率大概在8%。這隻能帶來一點小小的安慰,可是聊勝於無。
貝葉斯定理的一個重點在於,在計算想要計算的條件機率時,其餘三個機率都是必不可少的。缺乏任何一個都將會極大改變計算結果。
假正
貝葉斯定理能夠幫助咱們糾正假正(false positives),好比當咱們假設一件事情能給一個結果提供有用信息時,而這個結果自己不太可能出現,就容易出現誤報。與誤報相關的一個很著名的例子就是癌症檢測(或者其餘罕見疾病檢測)。
假設某種癌症的患病率爲0.1%。你的醫生告訴你有一種最早進的癌症檢測,在檢測已患癌症的病人是否患有癌症時的準確率高達90%。但這種檢測也有缺點,就是在實際並未患癌的狀況下檢測出癌症的機率爲9%。
你生性焦慮,因而就想作個檢測來緩解不安。你的檢測結果爲陽性。知道結果的一瞬間,你真的很是懼怕。由於你認爲這一結果代表你患上癌症的機率爲90%。
不,其實並非這樣的。應用貝葉斯定理,你就能夠很快推算出你得癌症的真正機率。須要注意的是,在這種狀況下,你須要除以獲得真正陽性的機率以及獲得假正的機率:
P(癌症|陽性)=P(陽性|癌症)*p(癌症)/(p(陽性)*p(癌症)+p(假正)*p(健康))=9.17%
檢測結果爲假正的機率是結果爲陽性、真正患有癌症的機率的十倍,因此你基本不可能患癌,也就無需擔憂(這其實很難作到,畢竟你是一開始是出於焦慮而作了檢測)。
關於獨角獸
這不太多是真的獨角獸。圖自Unsplash/Andrea Tummons攝人工智能
所以,對於任何有興趣預測將來的人來講,對即將發生的事情的先驗機率有一個清楚的瞭解是很是有用的。
爲了判斷一件事情(如看見一朵雲或一個陽性癌症檢測結果)對預測另外一件事情(如降雨或患有癌症)可以提供多少有用的信息,咱們須要在觀察雲朵或作癌症檢測時,得出降雨或患癌的整體機率。
大腦在分類感官從外界收集的信息的同時,也在不斷地判斷機率。所以,咱們能夠猜測一下,爲何大腦的運做過程體現了貝葉斯定理。
好比,你看到一隻四條腿的動物在地平線上飛馳的模糊輪廓。那隻動物的前額彷佛附着同樣長而尖的東西。
此時大腦會自動得出「那是一隻獨角獸」的結論嗎?
只要是個正常人,恐怕都不會得出這一結論。由於根據觀察到的形狀得出觀察到了一隻獨角獸的結論的機率P(獨角獸|形狀)必須被觀察到獨角獸的先驗機率P(獨角獸)賦權。然後者在現存宇宙中爲0。
世界的內部模型
若是想要對世界的行爲,特別是將來的行爲建模,大腦須要有一個「世界是什麼」的內部模型,來了解「世界可能成爲何」。
大腦須要可以在接受世界狀態的最新信息,如最新樣本後,更新世界的內部模型。假設你在平常通勤路上常常見到獨角獸。那麼在多久以後你會開始懷疑「沒有獨角獸」這一假設的正確性?或者假設在作癌症檢測時,50個獲得陽性結果的人當中,有20個真的得了癌症。你是否還會相信上文得出的預測,即只有9.17%的陽性結果代表患者真的得了癌症?
採用統計最優的方法,基於最新信息更新內部模型的機率分佈,這就是貝葉斯推理(Bayesian Inference)。
咱們一般能夠在行爲實驗中,或關聯各個感官輸入時,觀察到大腦的這種推理。好比,研究代表,在巴甫洛夫的相關刺激實驗中,不一樣刺激之間的互信息是最優的。另外一個著名的例子是1992年Britten等人的目視動做分析(https://www.ncbi.nlm.nih.gov/pubmed/1464765)。他們的研究代表,猴子大腦會基於對刺激做出的神經反應或發射率,嘗試解碼目視動做一致性,其解碼速率會向貝葉斯最佳解碼速率靠近。
結果顯示,大腦的預測方式是能夠預測的。
貝葉斯大腦假說
如今咱們已經準備好深刻了解貝葉斯大腦假說的實際意義了。
貝葉斯大腦存在於外部世界中,並被賦予了外部世界的內部表徵。這二者被馬爾可夫毯(Markov blanket)隔了開來。
大腦試着利用世界生成模型來推斷其感受的成因。爲了成功地對外界建模,大腦必須可以在必定程度上對外界發生的事情進行模擬。Karl Friston認爲:
若是大腦想要推斷感受的成因,它必須先對生成感受輸入的世界的(隱性)狀態之間隨意的關係(聯結)建模。在這以後,神經元聯結便會對生成感受信息的隨意聯結進行編碼(建模)。
這就是理解貝葉斯大腦假說的第一個重點,也是很深奧的一點:大腦中的世界內部模型認爲,大腦模型中的進程在物理世界中進行。爲了成功地預測將來,大腦須要在其硬件上模擬世界。這些過程必須遵循與外部世界類似的隨意性,而在觀察外部世界的大腦中,一個自身的世界會變得活躍起來。第二個重點與貝葉斯推斷相關:即在某種程度上,大腦是最優的,由於人類須要預測天然什麼時候會受到影響。
上文提到,在分類知覺的內容或在不肯定的狀況下做決定時,貝葉斯大腦的工做水平近似於貝葉斯最優水平。這也就意味着,大腦在推斷世界的將來(隱性)狀態時,會盡量多地考慮全部可得到的信息和全部機率約束。
對於所優化的量,有不少種命名。可是和大部分深奧、統一的理論同樣,結果代表,對不一樣事物從不一樣角度進行優化,最後獲得的量都是相同的。有一種方法就是把它看做證據,在信息理論中,這就至關於最大化感知數據和世界內部模型的互信息。
自由能
自由意志熱力學一文對Karl Friston的主動推理理論(大體講述了貝葉斯大腦所做所爲的理論)做了更爲詳細的介紹。
Friston經過最小化自由能來優化一個模型的證據或邊緣似然,這一模型則經過最小化「模型的意外」來定義(即最小化不符合世界模型的體驗)。
這一理論進一步將主動元件引入了生命系統,如大腦的行爲中,使得系統可以在世界中執行動做。也就是說,人類不只能夠描繪將來,還能夠經過對世界做用和實現期待來主動改變將來。
Karl Friston認爲,主動推理(Active Inference)的縮寫爲AI(與人工智能Artificial Intelligence的縮寫相同)並非一個偶然。他在一篇文章中表示,「在5到10年內,大部分機器學習都會結合最小自由能」。
這使得咱們又想到了上文提到過的達馬西奧對穩態的批判:
生命系統並非靜態的,爲了將意外最小化,並在充滿不肯定性的將來中存活下去,它們在世界中不斷活動。
意外時間平均可以充當熵的一種度量,這就把最小化自由能與熵聯繫了起來。Friston認爲,這有着影響深遠的物理結果:
這意味着,貝葉斯大腦在最大化證據的同時,也在暗中最小化熵。換句話說,貝葉斯大腦與熱力學第二定律相違背,並對天然的無序傾向給出了自組織的原則性解釋。
所以,貝葉斯大腦假說是關於基本範圍的理論。它將大腦的行爲與穩態重要性聯繫了起來,與在一個情願消散的世界中掙扎求生的生命聯繫了起來。
如何觀察貝葉斯大腦?
一方面,咱們須要提出一個涵蓋更大範圍的理論。另外一方面,咱們須要從大腦運做方式中找出支持理論的證據。若是大腦的運做方式和貝葉斯大腦同樣,咱們須要進一步瞭解大腦是如何進行貝葉斯推理的。
貝葉斯推理髮生在多個認知層面,從動做控制到注意力和工做記憶。每個認知任務都會根據貝葉斯推理得出本身的預測、本身的內部模型以及獨一無二的時間表。
預測性編碼(Predictive Coding)是嘗試理解大腦貝葉斯推理行爲的理論中較有前景的一個。預測性編碼就是作了貝葉斯大腦應該作的事情。其算法經過改變預測的參數來最小化意外,以防從此須要再次應對一樣的狀況,從而作好應對將來的準備。研究已經發現了支持該理論的證據,如詞彙預測實驗中的N400效應(詳見:https://www.nature.com/articles/nn1504)。
認知科學認爲,大腦並不只僅是一個消極接受外界信息並對其作出迴應的檢測器。事實上,大腦採用自上而下的模式,對世界是什麼樣的,以及世界將會是什麼樣的做出假設,從而不斷更新其對世界的印象(自上而下的模式指高階概念首先對接受低階感受數據的方法進行塑造,如上文獨角獸的例子)。研究人員所以已經採起了一個很棒的現實概念,即控制性幻覺(詳見Anil Seth的演講:https://www.ted.com/talks/anil_seth_how_your_brain_hallucinates_your_conscious_reality/transcript)。
一篇文章(https://www.jneurosci.org/content/38/27/6076)描述了先驗幻覺最經典的一個例子:若是先朗讀了「kick」一詞,那麼以後會把「pick」誤聽成「kick」。
幻覺現實用可預見的方式給了咱們一種決定性的進化優點,知足了咱們想要從混亂複雜的世界中找到結構的迫切須要。
科學家們仍然在激昂地爭論這一理論的有效性,以及大腦其實是如何在功能水平上應用貝葉斯推理的重大問題。任何明確的聲明都仍須要進一步的研究。可是本文認爲,根據這一理論的合理性和咱們目前全部的證據,咱們能夠相信,咱們正走在一條正確的道路上。
咱們正在揭開宇宙中最神祕的事物——貝葉斯大腦。這一事物使咱們可以觀察並改變世界,使咱們對將來充滿但願。
留言 點贊 關注3d
咱們一塊兒分享AI學習與發展的乾貨
歡迎關注全平臺AI垂類自媒體 「讀芯術」
orm

(添加小編微信:dxsxbb,加入讀者圈,一塊兒討論最新鮮的人工智能科技哦~)cdn