在2019年2月,波蘭政府增長了一項銀行法修正案,該修正案賦予了客戶在遇到負面信用決策時可得到解釋的權利。這是GDPR在歐盟實施的直接影響之一。這意味着若是決策過程是自動的,銀行須要可以解釋爲何不批准貸款。html
在2018年10月,「亞馬遜人工智能招聘工具偏向男性」的報道登上了全球的頭條新聞。亞馬遜的模型是基於有偏見的數據進行訓練的,這些數據偏向於男性應聘者。該模型構建了不利於含有「Women's」一詞的簡歷的規則。web
上述兩個例子的共同之處在於,銀行業中的模型和亞馬遜構建的模型都是很是複雜的工具,即所謂的黑盒分類器,它們不提供簡單且可解釋的決策規則。算法
若是金融機構想要繼續使用基於機器學習的解決方案,就必須投資於模型可解釋性的研究。這些機構可能確實會這麼作,由於這樣的算法在預測信用風險方面會更準確。另外一方面,若是模型通過適當的驗證和理解,亞馬遜本能夠節省大量資金並避免負面報道。安全
自2014年以來,機器學習一直保持在Gartner的Hype Cycle(技術成熟度曲線)的最頂端,直至2018年被深度學習(機器學習的一種形式)所取代,這代表其普及還沒有達到峯值。網絡
來源:https://www.gartner.com/smarterwithgartner/5-trends-emerge-in-gartner-hype-cycle-for-emerging-technologies-2018/機器學習
機器學習增加預計將進一步加速。根據Univa的調查報告,96%的公司預計在將來兩年內將機器學習用於生產。工具
其背後的緣由是:普遍的數據收集、大量計算資源的可得到性以及活躍的開源社區。機器學習採用的增加伴隨着解釋性研究的增長,而研究的增長是由像GDPR這樣的法規、歐盟的「解釋權」、對(醫療、自動駕駛汽車)安全性以及可重現性和偏見的擔心,或者最終用戶的指望(調試優化模型或者學習一些關於研究對象的新知識)所驅動的。性能
來源:http://people.csail.mit.edu/beenkim/papers/BeenK_FinaleDV_ICML2017_tutorial.pdf
學習
做爲數據科學家,咱們應該可以向最終用戶提供有關模型如何工做的解釋。可是,這並不必定意味着理解模型的每一個部分或須要根據模型生成一組決策規則。優化
同時,以下狀況也不須要解釋模型:
若是咱們看看2018年Kaggle所作的機器學習和數據科學調查結果,大約60%的受訪者認爲他們能夠解釋大多數機器學習模型(有些模型仍難以解釋)。用於機器學習理解的最經常使用方法,是經過查看特徵重要性和特徵相關性來分析模型特徵。
特徵重要性分析提供了對模型學習內容以及哪些因素可能重要的初步的良好洞察。可是,若是特徵之間是相關的則該方法會不太可靠。只有模型變量可解釋時,它才能提供良好的洞察。對於許多GBMs庫(Gradient Boosting Machine),繪製關於特徵重要性的圖表很是容易。
對於深度學習來講,狀況要複雜得多。使用神經網絡時,能夠查看權重,由於它們包含關於輸入的信息,但信息是壓縮的。此外,你只能分析第一層的鏈接,由於在更深的層次上它太複雜了。
難怪2016年LIME(局部可解釋的模型-可解釋的說明)論文在NIPS會議上發表時,它產生了巨大的影響。LIME的模式是在可解釋的輸入數據上構建一個易於理解的白盒模型去局部模擬一個黑盒模型。已經證實它在爲圖像分類和文本提供解釋方面得到很棒的結果。可是,對於列表數據,很難找到可解釋的特徵,其局部解釋可能會產生誤導。
LIME經過Python(lime和Skater)和R(lime包和iml包、live包)實現,並不是常容易使用。
另外一個有前景的想法是SHAP(Shapley Additive Explanations)。它基於博弈論。它將特徵當作玩家、將模型當作聯盟,用Shapley值說明各特徵分別帶來了怎樣的「影響(Payout)」。該方法公平地衡量(各特徵的)做用,易於使用並提供吸引人的可視化實現。
以R提供的DALEX軟件包(描述性機器學習說明)提供了一組工具,可幫助瞭解複雜模型的工做原理。使用DALEX,能夠建立模型解釋器並經過可視化進行檢查,例如分解繪圖。你可能也會對DrWhy.Ai感興趣,它和DALEX是由同一組研究人員開發的。
圖像識別已被普遍使用,其中在自動駕駛汽車中用於檢測汽車、交通訊號燈等,在野生動物保護中用於檢測圖像中的某種動物,或在保險中用於檢測毀於洪澇的農做物。
咱們將使用原始LIME論文中的「哈士奇 vs 狼的例子」來講明模型解釋的重要性。該分類器的任務是識別圖片上是否有狼,但它錯誤地將西伯利亞哈士奇分類爲狼。感謝LIME的研究人員可以識別圖片上的哪些區域對模型比較重要,最終發現若是圖片包含雪就會被歸類爲狼。
該算法使用了圖片的背景並徹底忽略了動物的特徵。模型本來應該關注動物的眼睛。因爲這一發現,就能夠修復模型並擴展訓練樣本以防止推理爲雪=狼。
阿姆斯特丹UMC的重症監護室但願預測出院時患者再入院和/或死亡的可能性。目標是幫助醫生選擇將病人移出ICU的合適時機。若是醫生了解模型正在作什麼,就更有可能在作最終判斷時使用它的建議。
爲了展現如何使用LIME解釋這種模型,咱們能夠看另外一個旨在早期預測ICU死亡率的研究。其使用了隨機森林模型(黑盒模型)預測死亡率狀況,使用LIME局部解釋每一個患者的預測分數。
來源:https://www.researchgate.net/publication/309551203_Machine_Learning_Model_Interpretability_for_Precision_Medicine
來自所選樣本中的一個患者被預測具備高死亡機率(78%)。致使死亡的模型特徵爲更高的房顫次數和更高的乳酸水平,這與當前的醫學理解是一致的。
爲了在構建可解釋的AI方面取得成功,咱們須要將數據科學知識、算法和最終用戶的專業知識結合起來。建立模型以後,數據科學的工做尚未結束。這是一個可迭代的、經由專家提供反饋閉環的一般很漫長的過程,以確保結果是可靠的而且可被人類所理解。
咱們堅信,經過結合人類的專業知識與機器的性能,咱們能夠得到最佳結論:改進機器結果並克服人類直覺的誤差。
參考資料:
相關信息:
做者:Olga Mierzwa-Sulima,Appsilon高級數據科學家和項目負責人
譯者:TalkingData 鍾大偉
原文地址:https://www.kdnuggets.com/2019/05/interpretability-machine-learning-models.html
封面圖來源於網絡,若有侵權,請聯繫刪除