從對比學習(Contrastive Learning)到對比聚類(Contrastive Clustering)

從對比學習(Contrastive Learning)到對比聚類(Contrastive Clustering)

做者:凱魯嘎吉 - 博客園 http://www.cnblogs.com/kailugaji/html

    想要了解對比聚類,首先應該清楚對比學習的整個過程。最經典的對比學習的文章是Hinton團隊提出的SimCLR,該方法首先將一個實例(圖像)變換成兩種不一樣的增廣實例(圖像),而後用神經網絡訓練獲得投影表示,用餘弦類似性求出兩兩投影表示之間的類似性,並最大化相同實例投影表示之間的一致性。而對比聚類(CC)徹底借鑑SimCLR的思想,惟一的區別是以前的對比學習是實例層面的,橫向進行對比,而CC則添加了一個聚類層面的對比學習,縱向進行對比。經過同時最小化兩個層面的損失函數,最終獲得聚類層面上的網絡權重,進而獲得劃分結果。git

1. 對比學習

2. 對比聚類

CC創新:github

  • 一方面,從聚類的角度,受益於「標籤即表示」及「列空間對應類別表示空間」的洞見,本文提出的方法無需全部數據輸入後才能進行聚類,而是採用在線的方式實時對當前數據進行聚類隸屬預測,適用於大規模在線場景和流式數據處理。大量實驗代表,提出的方法在CIFAR10,CIFAR100等數據集上比當時最優聚類算法提高精度30%以上。
  • 另外一方面,從對比學習角度,該工做是最先的面向任務的對比學習方法,而再也不是流行的任務無關無監督表示學習範式。
  • 此外,本文提出的算法也可認爲是一種新的引入聚類性質從而加強表示學習能力的對比學習方法,爲對比學習研究領域引入新的洞見。
  • 本文的整個idea很是優雅、簡潔及自洽。相對於最新的SimCLR等對比學習算法,本文提出的算法僅需在考慮數據特徵行空間對比學習的同時再考慮列空間的對比學習便可。

思考:算法

    對比聚類中用紅色方框框出來的就是不一樣於SimCLR的地方,若是去掉紅框的內容,那就徹底是SimCLR。以往都是在行空間上進行對比學習,CC的創新之處在於引入列空間上的對比學習(矩陣大小爲:樣本數*聚類個數)。但列空間上的對比學習的損失函數與SimCLR徹底一致,沒有任何改進。對比學習主要目的是最大化同一實例之間的類似性,而最小化不一樣實例之間的類似性。整體來講,該算法最適用於圖像類型的數據,由於剛開始涉及到隨機變換函數是對圖像進行一系列變換操做。本人理解有限,歡迎指正。網絡

3. 參考

[1] Ting Chen, Simon Kornblith, Mohammad Norouzi, Geoffrey Hinton. A Simple Framework for Contrastive Learning of Visual Representations, ICML, 2020.ide

Paper: http://proceedings.mlr.press/v119/chen20j.html函數

Code: https://github.com/google-research/simclr學習

[2] Yunfan Li, Peng Hu, Zitao Liu, Dezhong Peng, Joey Tianyi Zhou, Xi Peng, Contrastive Clustering, AAAI, 2021.google

Paper: http://pengxi.me/wp-content/uploads/2020/12/2021AAAI-CC.pdfidea

Code: https://github.com/XLearning-SCU/2021-AAAI-CC

彭璽老師報告視頻(從第21分鐘開始看):https://www.bilibili.com/video/BV1Ny4y127v6

[3] CCF A類會議AAAI 2021論文收錄結果出爐:我院彭璽教授有兩篇論文入選 http://cs.scu.edu.cn/info/1246/15202.htm

[4] The Illustrated SimCLR Framework - Amit Chaudhary https://amitness.com/2020/03/illustrated-simclr/

相關文章
相關標籤/搜索