一、PCA簡介
1、 定義:主成分分析是一種統計方法,透過正交變換將一組可能存在相關性的變數轉換為線性不相關,轉換後的這組變數稱為主成分。
2、 主要應用場景:資料壓縮;消除冗餘;消除資料噪聲;資料降維,視覺化
3、 理論基礎:最大投影方差理論、最小投影距離理論和座標軸相關度理論
4、 直觀理解:找出資料裡最主要的成分,代替原始資料並使損失儘可能的小
a) 樣本點到超平面的距離足夠近
b) 樣本點在這個超平面的投影儘可能的分開
二、PCA的推導:基於最小投影距離
1、 標準化後的m個數據
2、 新座標系
,w是標準正交基
3、 資料在
維中的投影
,轉換後的變數在原空間中的表示
4、 目標最佳化函式
5、 公式簡化
則目標函式等價於
6、 求解變換矩陣W
a) 由拉格朗日乘子法可得
b) 對W求導取零求極值,有
,即
c) 可知W為的特徵向量組成的矩陣,
為特徵值
三、PCA的推導:基於最大投影方差
1、 符號表義如(二)中所示
2、 任意樣本
,新座標系中的投影
,投影方差為
,最大投影方差的目標函式如下
3、 求解變換矩陣W(過程同二):
四、PCA演算法流程
1、 中心化所有樣本資料(標準化)
2、 計算樣本集的協方差矩陣
3、 對矩陣進行特徵值分解,獲得特徵值和特徵向量
4、 將特徵值按照從大到小的順序排序,選擇其中最大的k個特徵值對應的特徵向量,標準化後組成變換矩陣W
5、 對每個樣本進行投影變換以獲得新(壓縮後)的樣本集