學界 | 伯克利最新研究:用算法解決算法誤差?公平機器學習的延遲影響

近期頻頻登上頭條的幾項研究大多如此:好比利用算法識別犯罪團伙或者,利用圖像識別斷定同性戀。算法

這些問題的出現每每是由於歷史數據中的誤差特徵,好比種族和性別上的小衆團體,每每所以在機器學習預測中產生不利的歧視結果。在包括貸款,招聘,刑事司法和廣告在內的各類普遍使用AI的領域,機器學習因其預測偏差傷害到了歷史上弱勢羣體,而廣受詬病。機器學習

本月,在瑞典斯德哥爾摩舉行的第35屆機器學習國際會議上,伯克利AI研究協會發布了一篇論文,來試圖解決這一問題。函數

545b89544270bf09decd2f53681766b03fb9d2ef

這篇文章的主要目標,是基於社會福利的長期目標對機器學習的決策進行了調整。學習

一般,機器學習模型會給出一個表述了個體信息的分數,以便對他們作出決定。 例如,信用評分表明了一我的的信用記錄和財務活動,某種程度上銀行也會根據信用評分判斷該用戶的信譽度。本文中將繼續用「貸款」這一行爲做爲案例展開論述。spa

以下圖所示,每組人羣都有信用評分的特定分佈。3d

 

信用評分和還款之間的分佈blog

569381d8c4d04c8bb2707ff71c373507546ab77c

上圖中,最上面的數字表示信用評分,評分越高表示償還能力越強。每一圓圈表示一我的,深藍色的圓圈表示將會償還貸款的人,淺藍色的圓圈表示將會拖欠貸款的人。事件

經過定義一個閾值,就能夠根據信用評分進行決策。例如,向信用評分超過閾值的人發放貸款,而拒絕向信用評分低於閾值的人發放貸款。這種決策規則被稱爲閾值策略。io

信用評分能夠被解釋爲對拖欠貸款行爲的估計機率。例如,信用評分爲650的人中估計有90%的人可能會償還他們的貸款。select

銀行就能夠給信用評分爲650的我的發放相同的貸款,並得到預期的利潤。一樣,銀行能夠給全部信用評分高於650的我的發放貸款,並預測他們的利潤。

 

貸款閾值和盈虧結果

928e67aabeca3b0c9efae7bb45c7bcd8b85ffc51

不考慮其餘因素,銀行確定會最大化本身的總利潤。利潤取決於銀行從償還貸款中得到的金額與從拖欠貸款中損失的金額之比。在上面的動圖中,營收與虧損的比率的取值是-4~1。

當損失的成本相對高於收益成本時,銀行會更保守地發放貸款,並提升貸款閾值。咱們稱信用評分超過該閾值的人羣比例爲選擇率(selection rate)。

 

信用評分變化曲線

是否發放貸款的決策不只影響機構,並且影響我的。違約事件(借款人未能償還貸款)不只會讓銀行損失利潤,也下降了借款人的信用評分。

按時償還貸款的行爲會爲銀行帶來利潤,同時也會增長借款人的信用評分。在本文的示例中,借款人信貸評分變化率爲-2~1,-2表示拖欠貸款,1表示償還貸款。

對於閾值策略,評分結果(outcome)的定義是人羣信用評分的預期變化,也是選擇率函數的一個參數,咱們稱這個函數爲結果曲線。每組人羣的選擇率不一樣,信用評分曲線也不盡相同。

相關文章
相關標籤/搜索