做者:凱魯嘎吉 - 博客園 http://www.cnblogs.com/kailugaji/git
本博文是對Decorrelated clustering with data selection bias這篇文章的展開與敘述。現有的聚類算法大多沒有考慮數據的選擇誤差。然而,在許多實際應用中,人們不能保證數據是無偏的。選擇誤差可能會致使特徵之間產生意想不到的相關性,忽略這些意想不到的相關性會影響聚類算法的性能。所以,如何消除這些由選擇誤差引發的非預期相關性是很是重要的,但在聚類過程當中尚未被深刻探討。在本文中,提出了一種新的去相關正則化k -均值算法(DCKM),用於有數據選擇誤差的聚類。具體來講,去相關正則化器的目的是學習可以平衡樣本分佈的全局樣本權值,從而消除特徵之間的非預期相關性。同時,將學習到的權值與k-means相結合,使從新加權後的k-means聚類對數據的固有分佈沒有非預期的相關性影響。此外,本文還推導出了更新規則,以有效地推斷DCKM中的參數。在真實數據集上的大量實驗結果很好地證實了DCKM算法得到了顯著的性能提高,代表在聚類時須要去除由選擇誤差引發的非預期特徵關聯。github
參考文獻:算法
[1] Xiao Wang, Shaohua Fan, Kuang Kun, Chuan Shi, Jiawei Liu, Bai Wang. Decorrelated clustering with data selection bias. IJCAI 2020. (CCF-A)性能
[2] 王嘯, 石川, 範少華. 一種數據選擇誤差下的去相關聚類方法及裝置[發明專利], 申請號: 2020105917421. 學習
王嘯老師我的主頁:https://wangxiaocs.github.io/spa