Twin Learning for Similarity and Clustering: A Unified Kernel Approach

轉載請註明出處：

論文來源：

AAAI 2017

論文連結：

Twin Learning for Similarity and Clustering： A Unified Kernel Approach

論文原作者：Zhao Kang， Chong Peng， Qiang Cheng

Abstract

許多基於相似性的聚類方法有倆步驟：第一步是相似性矩陣的運算；第二部是隨後的譜聚類演算法。然而，相似性的度量是具有挑戰性的，它會受到很多因素的影響比如相似性度量方法、鄰域（

$k,\epsilon$

），資料維度噪聲和極端值等。學習得到的相似性矩陣經常是不合適的，這會使得最後的譜聚類演算法結果變得不是最優。此外，非線性相似性在真實世界資料中也經常出現，如果用現有的方法去解決，效果可能沒那麼好。為了解決這倆挑戰，作者提出的模型在核空間裡同時學習了聚類指示矩陣和相似性矩陣。為解決怎樣選擇一個最合適的核問題，作者將模型進一步拓展到了具有多核學習能力。有了這個組合模型，作者可以同時完成三個子任務：第一，找到最好的聚類指示矩陣；第二，找到最準確的相似性關係；第三，找到最優的多核組合（選到最合適的核）。任務與任務之間是相互影響的。

Introduction

聚類就是將資料分離到不同的堆，以致於同一個堆的資料彼此之間相似，不同堆間的資料不相似。k-means演算法因其簡易性和效率性而被廣泛使用，但它不能夠區分任意形狀（shape）的聚類。kernel k-means是用於捕捉資料集的非線性結構資訊。基於核的學習方法要求確定一個核，這意味著須假設一個明確的底層資料空間形狀。因此基於核的方法的效果很大程度上是被核的選擇所影響。

譜聚類是在執行k-means聚類之前，對資料的相似性矩陣做了一個低維的embedding（實際是降維）。基於相似性的聚類方法通常呈現比k-means演算法更好的效果，因為基於相似性的聚類方法利用了每對點的相似性資訊作為輸入，這利用了多種資訊。然而，這種基於相似性的方法效果很大程度上由相似性矩陣所決定。相似性測量比如度量、鄰域大小、資料維度等可能會讓效果變得不是最優。

Contributions

1。在這篇論文中，作者在“self-expression”的思想上執行聚類，每個資料點是用其他的點來表達。

2。這個方法提取資料的全域性結構而不是區域性結構，可拓展至核空間。

3。不同於現存的聚類演算法，作者透過在拉普拉斯矩陣（學習相似性矩陣後得到）實行秩限制（rank constraint）同時學習了相似性矩陣和聚類指示矩陣。

4。作者直接將方法發展於核空間，為捕捉現實世界資料集的非線性結構資訊。

5。作者提出多核學習演算法為找到最合適的核。

Model

1.Clustering with Single Kernel

依據self-expressive特性：

$Z_{ij}$

是第j個樣本的權重。更相似的樣本應該得到更大的權重，反之亦然。因此，

也叫相似性矩陣，這表示了資料的全域性結構。為得到

，作者須解決以下問題：

第一項是重構誤差，第二項是正則項為避免平凡解

。

（2）有一個缺點：它假設了樣本之間的線性關係。為揭露資料點之間的非線性關係，作者透過利用一個廣義核框架將（2）拓展到了核空間：

$\phi:R^{D}\rightarrow$

（將輸入空間的資料樣本對映到核空間），因此

$X=[X_{1},...,X_{n}]\Rightarrow$

$\phi(X)=[\phi(X_{1}),...,\phi(X_{n})]$

。

資料樣本

$X_{i}$

和

$X_{j}$

間的核相似性：

$K_{X_{i},X_{j}}=<\phi(X_{i}),\phi(X_{j})>$

因此（2）變成如下（3），可代入換算得到：

理想化情況下，作者期望

中的連通區域數為

如果給定的資料集

包含

個聚類（

是塊對角的）。而（3）中的

可能不滿足這個特性，須要加多個限制：

，

為

的拉普拉斯矩陣。（3）變成：

帶有秩約束的最佳化問題是有名的組合複雜度問題。為解決這個問題，將秩約束以正則化方式加入到目標函式。由於

$rank(L)=n-c\Leftrightarrow$

$\Sigma$

$_{i=1}^{c}$

$\sigma_{i}=0$

，則（4）變成：

由Ky Fan’s Theorem得，

綜上，SCSK模型用公式表示為：

不斷反覆更新

和

，（7）會得到最佳化。詳細可見論文。

2.Clustering with Multiple Kernels

（7）的效果很大程度上決定於核的選擇，要找到最合適的核。多核學習演算法能夠整合資訊，區分出給定任務的最合適的核。

假設有r種不同的核函式 {

$K^{i}$

}

$_{i=1}^{r}$

。對應地，有r個不同的核空間{

$H^{i}$

}

$_{i=1}^{r}$

，擴張的Hilbert space可以透過連線所有的核空間

$\tilde{H}=\oplus$

$_{i=1}^{r}H^{i}$

。因此：

資料的對映（帶不同權重）

則組合的核函式為：

綜上，SCMK模型用公式表示為：

反覆更新

，最後達到最優。最佳化詳情見於論文。

Experiment

對於單核方法，作者比較了核k-means（KKM），譜聚類（SC），魯棒核k-means（RKKM）以及提出的SCSK演算法；

對於多核演算法（本論文中設定了12個核），作者比較了MKKM（Multiple Kernel K-means）演算法、AASC（Affinity aggregation for SC）演算法、RMKKM（Robust Multiple Kernel K-means Using L21-norm）演算法以及提出的SCMK演算法。

實驗結果如下：

Conclusion

最近看的論文大多是將聚類和核函式結合在一起，與這篇論文聯絡緊密且思想相近的是AAAI2018上的一篇Unified Spectral Clustering with Optimal Graph，即是我的上一篇筆記。有興趣可詳細翻閱原論文！

Twin Learning for Similarity and Clustering: A Unified Kernel Approach

逸動伴我回家功能，照亮我回家的路，感謝有你

《你好，李煥英》影片

隨便看看

冷咖啡離開了杯墊，我忍住的情緒在很後面。這句是什麼意思？

三級殘疾屬什麼勞動力？

廣東韶關油炸蘿蔔餈粑的做法？

鞋子毛氈面和磨砂皮區別？

Twin Learning for Similarity and Clustering: A Unified Kernel Approach

逸動伴我回家功能，照亮我回家的路，感謝有你

《你好，李煥英》影片

猜你喜歡

向量點乘的意義？

機器學習第8篇——K-Means（聚類演算法）

《機器學習實戰》學習總結（十）——K-均值聚類（k-Means）

隨便看看

冷咖啡離開了杯墊，我忍住的情緒在很後面。這句是什麼意思？

三級殘疾屬什麼勞動力？

廣東韶關油炸蘿蔔餈粑的做法？

鞋子毛氈面和磨砂皮區別？