特徵真的越多越好嗎?從特徵工程角度看「garbage in,garbage out」

1. 從樸素貝葉斯在醫療診斷中的迷思說起 這個模型最早被應用於醫療診斷,其中,類變量的不同值用於表示患者可能患的不同疾病。證據變量用於表示不同症狀、化驗結果等。在簡單的疾病診斷上,樸素貝葉斯模型確實發揮了很好的作用,甚至比人類專家的診斷結果都要好。但是在更深度的應用中,醫生髮現,對於更復雜(由多種致病原因和症狀共同表現)的疾病,模型表現的並不好。 數據科學家經過分析認爲,出現這種現象的原因在於:模
相關文章
相關標籤/搜索