【論文閱讀】Binary Multi-View Clustering

時間 2020-05-19

標籤論文閱讀 binary multi view clustering 简体版

原文原文鏈接

文章地址：https://ieeexplore.ieee.org/document/8387526算法

出自：IEEE Trans. on Pattern Analysis and Machine Intelligence, 2018.iview

本文是對《Binary Multi-View Clustering》一文的我的理解總結，詳細內容敬請閱讀原文。函數

1、主要解決的問題性能

一、多視角的大尺度的數據集聚類性能表現欠佳；學習

二、實值聚類消耗較大的內存資源和計算資源；優化

二、編碼和聚類是獨立的，不能相互做用。this

2、創新點編碼

一、BMVC是第一個使用二進制編碼技術解決大規模多視圖聚類問題的方法，BMVC同時從多個視圖和聯合優化二進制編碼和聚類。設計

二、提出了一種交替優化算法用於解決離散的優化問題，。針對二值聚類中心學習的關鍵子問題，還提出了一種自適應離散近似線性方法(ADPLM)。3d

三、BMVC具備較好的聚類性能，還明顯更少的計算時間和內存開銷，內存和時間上快的不止一點，這一點真的很好。

3、文章概要：

文章是編碼的多視角聚類問題。首先說明什麼是多視角和如何編碼，而後從哈希編碼聯合聚類模型、優化以及實驗分析三個方面簡述文章主要思想和實驗設計。

所謂多視角，引用原文：1. Different to single-view clustering using singular data descriptor, in this paper, we first describe each data point (e.g., an image) by various features (e.g., different image descriptors, such as HOG, Color Histogram and GIST) and then feed these features from multiple descriptors into our clustering. It is noteworthy that the 「Multiview」 in our paper indicates multiple image descriptors of features rather than multiple modalities. 簡單來講：本文多視角就是多種特徵。

一、哈希編碼

爲何要進行編碼呢？

第一，針對實值聚類須要較大的內存資源，尤爲是譜聚類方法，對較大尺度的圖像數據集須要佔用很大的內存，編碼可以對數據特徵進行降維處理，儘量的保留了樣本的自身特徵。第2、計算機可以更容易處理編碼數據，下降計算複雜度。

如何編碼：對於任意一個視角（一種特徵），n爲數據集中圖像的數目，m是選取的錨點數。具體或稱以下圖。

怎麼樣讓編碼更好的體現特徵，設計了以下代價函數：

但願多視角學習獲得的 M 個哈希矢量與二值編碼B 可以類似，最小化編碼和哈希矢量的L2範式；
但願獲得的投影轉換矩陣約簡單越好，最小化U的L2範式；
但願數據點的二值碼分佈均衡，最大化其方差；
不一樣視角扮演的份量不一樣，不一樣視角優化不一樣權重。

二、哈希編碼聯合聚類模型

聚類模型使用的是矩陣分解的方法，但願每一個編碼b能夠用一個聚類中心C和指示向量g（權重）的乘積來表示，但願分解的偏差最小。方法化較爲常見，話很少說代價函數詳見下式：

文章的一個主要創新點體現再此，做者將編碼和聚類同時進行優化，將二者目標方程結合在一塊兒，在學習過程當中，相對於pipeline的方法更能將編碼和聚類相互做用體現出來。因而總的代價函數：

三、優化

面對如此複雜的代價函數（涉及到離散約束條件的np hard問題），如何進行優化訓練？

做者，使用了一個交替優化策略，即更新某個變量時，固定其它變量不變的循環更新方法。

更新U ,固定其它量不變，總代價函數變爲：

可見該項不含約束項，直接求導，令其倒數爲0，獲得此時最優U；

其中，

更新B , 總代價函數變爲：

包含有離散約束量，怎麼辦呢，先化簡看看啦：

化簡到此，是否是有種「柳暗花明又一村「的感受，第一項是常數，由於B轉置和B之間的項是一常數乘以單位陣，又因B轉置乘以B爲常數，故第一項爲常數。因而就變爲求第二項的最小值，前面有（-）符號，使得B轉置乘以一項的值最大，這一項就爲B。由於B爲編碼，因此取符號操做，B爲：

找出每一個b到任何聚類中心的hamming距離，最近的給權值g爲1，其它置爲0。

四、實驗分析

做者在Caltech101, NUS-WIDE-Obj, Cifar-10, Sun-397 YouTube Faces 實驗驗證。

以Caltech101爲例，精度上對好比圖，在多view上做者算法是最高的，而且提高幅度較大。

效率上的對比，做者算法相對於K-means時間上提高了60倍的速度，是否是至關驚人！

內存資源佔用對比，內存下降近1500倍，是否是更加驚人！

有人可能會有疑問，爲何編碼後聚類性能可以提高？？來看編碼後的特徵分佈，以下兩圖，相同簇用同種顏色表示，編碼後的特徵簇間分佈更加分散，簇內分佈更加緊密，這就更容易對其進行聚類。以致於效果可以提高。

參數靈敏度分析：

手動調整參數較多，做者實驗分析了這些參數對性能的影響，好在模型對這些參數不敏感。參數在必定大範圍內可以保持穩定的聚類性能！

4、總結

Contributions：

1. 提出了一種可以下降計算複雜度和內存開銷的多視角聚類算法；

2. 提供了一種編碼和聚類同時優化的思想；

Limitations：

1. 文章中所提，手動調整參數太多（源於太多的約束項）。

若有不足，肯請指出。

張亞超

2018年10月22日

相關文章

相關標籤/搜索

論文閱讀筆記

Thymeleaf 教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<