Machine Learning 的統計辦法貝葉斯決策理論入門

時間 2020-06-13

標籤 machine learning 統計辦法貝葉決策理論入門简体版

原文原文鏈接

感謝平臺分享-http://bjbsair.com/2020-04-10...html

引言

不管你是在創建機器學習模型仍是在平常生活中作決定，咱們老是選擇風險最小的方案。做爲人類，咱們天生就採起任何有助於咱們生存的行動；然而，機器學習模型最初並非基於這種理解而創建的。這些算法須要通過訓練和優化，以選擇風險最小的最優方案。此外，很重要的一點在於，咱們必須明白，若是某些高風險的決定作的不正確，將會致使嚴重的後果。git

咱們以癌症診斷爲例。根據病人的計算機斷層掃描（CT），放射科醫生能肯定腫瘤的存在嗎？若是他們認爲病人體內有腫瘤，那麼醫生須要弄清楚腫瘤是良性的仍是惡性的，以肯定正確的治療方法。鑑於本文的目的是描述作出這些決策的統計方法，因此我只關注問題的第一部分：病人是否有腫瘤，是，仍是否？算法

貝葉斯定理

在統計學和機率論領域，最著名的方程之一是貝葉斯定理（見下面的公式）。基本直覺是，給定某個特徵（即屬性）時，某個類或事件發生的機率是基於特徵值的可能性和有關該類或事件的任何先驗信息計算的。這句話看起來有點複雜，因此咱們一步步拆開來看。首先，癌症檢測是一個兩類問題。第一類表示腫瘤存在，表示腫瘤不存在。segmentfault

先驗

貝葉斯定理有四個部分：先驗、似然、置信和後驗。先驗機率（）定義了事件或在天然界中發生的可能性。咱們要注意，先驗機率的分佈根據咱們問題的情景而各有差別。因爲目標是檢測癌症，能夠確定的是，腫瘤出現的機率很低：。可是，無論值是多少，全部先驗機率的總和都必須是1。機器學習

似然

從技術上來講，CT掃描是指用x射線以圓周運動的方式進行掃描。產生的關鍵指標之一是衰減——衡量x射線吸取程度的指標。密度越高的物體衰減越大，反之亦然。所以，與肺組織相比，腫瘤可能具備更高的衰減。ide

假設咱們只經過衰減值這一個特徵來從和之間作出決定。每一個類都有一個類條件機率密度和，稱爲"似然度"。下圖顯示了一個的的類條件機率密度示意圖。類條件機率分佈是經過分析訓練數據集來提取的；可是，若是有相關領域的專家來檢查一下數據的有效性是最好的。svg

置信

描述置信最好的辦法是全機率公式。這條公式指出，若是有相互排斥的事件（例如和），其發生機率總和爲1，則某個特徵（例如衰減程度）出現的機率（也即咱們的置信）是全部相互排斥的事件的似然度與對應事件先驗機率乘積的和。學習

後驗

貝葉斯定理的結果稱爲後驗機率和。後驗機率表示在給定特徵（例如衰減程度）的狀況下，觀察值屬於或類（便是否存在腫瘤）的機率。每個觀測值都有一個後驗機率，全部後驗機率的總和必須達到1。對於咱們試圖解決的癌症檢測問題，它有兩個後驗機率。除了似然度和後驗機率之間的聯繫以外，後驗機率還可能受到先驗機率的嚴重影響。優化

決策規則

既然咱們已經很好地理解了貝葉斯定理，如今是時候看看如何利用它在兩個類之間創建一個決策邊界了。有兩種方法能夠肯定病人是否有腫瘤。第一種是一種簡單的方法，它只使用先驗機率值來作決定；第二種方法利用後驗機率，利用先驗機率和類條件機率分佈來肯定病人患有腫瘤的機率。spa

使用先驗機率

假設咱們只根據天然的先驗機率作出決策，這意味着咱們忘記貝葉斯定理中的全部其餘因素。因爲有腫瘤的機率遠小於沒有腫瘤的機率，咱們的模型/系統將始終預測每一個患者都沒有腫瘤。儘管模型/系統在大多數狀況下都是正確的，但它沒法識別出真正患有腫瘤並須要救治的患者。

使用後驗機率

如今讓咱們使用後驗機率和來採起更全面的方法。因爲後驗概論是貝葉斯定理的結果，類條件機率密度和減輕了先驗的影響。若是咱們的模型/系統所觀察的區域的衰減比普通組織要高，那麼儘管存在天然的先驗機率，但腫瘤出現的機率仍是會增長。假設一個特定區域有75%的概率含有腫瘤，那麼這就意味着有25%的概率根本沒有腫瘤。這25%的概率是咱們出錯的機率，也被稱爲風險。

結論

您剛剛學到的是貝葉斯決策理論的一個簡單的單變量應用，它能夠經過使用多元高斯分佈代替置信和似然度來擴展到更大的特徵空間。雖然本文的重點是解決癌症檢測的問題，可是貝葉斯定理也被普遍用於包括投資、市場營銷和系統工程在內的衆多領域。

參考資源

[1]Seo, Young-Woo. (2006). Cost-Sensitive Access Control for Illegitimate Confidential Access by Insiders. Proceedings of IEEE Intelligence and Security Informatics: 23–24 May 2006. 3975. 117–128. 10.1007/11760146_11.

[2] Duda, R. O., Hart, P. E., Stork, D. G. (2001). Pattern Classification. New York: Wiley. ISBN: 978–0–471–05669–0

[3] Glatter, R., "Medicare To Cover Low-Dose CT Scans For Those At High Risk For Lung Cancer", Forbes (2015)

感謝平臺分享-http://bjbsair.com/2020-04-10...

引言

咱們以癌症診斷爲例。根據病人的計算機斷層掃描（CT），放射科醫生能肯定腫瘤的存在嗎？若是他們認爲病人體內有腫瘤，那麼醫生須要弄清楚腫瘤是良性的仍是惡性的，以肯定正確的治療方法。鑑於本文的目的是描述作出這些決策的統計方法，因此我只關注問題的第一部分：病人是否有腫瘤，是，仍是否？

貝葉斯定理

在統計學和機率論領域，最著名的方程之一是貝葉斯定理（見下面的公式）。基本直覺是，給定某個特徵（即屬性）時，某個類或事件發生的機率是基於特徵值的可能性和有關該類或事件的任何先驗信息計算的。這句話看起來有點複雜，因此咱們一步步拆開來看。首先，癌症檢測是一個兩類問題。第一類表示腫瘤存在，表示腫瘤不存在。

先驗

貝葉斯定理有四個部分：先驗、似然、置信和後驗。先驗機率（）定義了事件或在天然界中發生的可能性。咱們要注意，先驗機率的分佈根據咱們問題的情景而各有差別。因爲目標是檢測癌症，能夠確定的是，腫瘤出現的機率很低：。可是，無論值是多少，全部先驗機率的總和都必須是1。

似然

從技術上來講，CT掃描是指用x射線以圓周運動的方式進行掃描。產生的關鍵指標之一是衰減——衡量x射線吸取程度的指標。密度越高的物體衰減越大，反之亦然。所以，與肺組織相比，腫瘤可能具備更高的衰減。

假設咱們只經過衰減值這一個特徵來從和之間作出決定。每一個類都有一個類條件機率密度和，稱爲"似然度"。下圖顯示了一個的的類條件機率密度示意圖。類條件機率分佈是經過分析訓練數據集來提取的；可是，若是有相關領域的專家來檢查一下數據的有效性是最好的。

置信

描述置信最好的辦法是全機率公式。這條公式指出，若是有相互排斥的事件（例如和），其發生機率總和爲1，則某個特徵（例如衰減程度）出現的機率（也即咱們的置信）是全部相互排斥的事件的似然度與對應事件先驗機率乘積的和。

置信

後驗

決策規則

使用先驗機率

使用後驗機率

結論

參考資源

[2] Duda, R. O., Hart, P. E., Stork, D. G. (2001). Pattern Classification. New York: Wiley. ISBN: 978–0–471–05669–0

[3] Glatter, R., "Medicare To Cover Low-Dose CT Scans For Those At High Risk For Lung Cancer", Forbes (2015)

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

Machine Learning 的統計辦法 貝葉斯決策理論入門

引言

貝葉斯定理

先驗

似然

置信

後驗

決策規則

使用先驗機率

使用後驗機率

結論

參考資源

引言

貝葉斯定理

先驗

似然

置信

後驗

決策規則

使用先驗機率

使用後驗機率

結論

參考資源

引言

貝葉斯定理

先驗

似然

置信

後驗

決策規則

使用先驗機率

使用後驗機率

結論

參考資源

引言

貝葉斯定理

先驗

似然

置信

後驗

決策規則

使用先驗機率

使用後驗機率

結論

參考資源

引言

貝葉斯定理

先驗

似然

置信

後驗

決策規則

使用先驗機率

使用後驗機率

結論

參考資源

引言

貝葉斯定理

先驗

似然

置信

後驗

決策規則

使用先驗機率

使用後驗機率

結論

參考資源

引言

貝葉斯定理

先驗

似然

置信

後驗

決策規則

使用先驗機率

使用後驗機率

結論

參考資源

引言

貝葉斯定理

Machine Learning 的統計辦法貝葉斯決策理論入門