一、PCA簡介

1、 定義:主成分分析是一種統計方法,透過正交變換將一組可能存在相關性的變數轉換為線性不相關,轉換後的這組變數稱為主成分。

2、 主要應用場景:資料壓縮;消除冗餘;消除資料噪聲;資料降維,視覺化

3、 理論基礎:最大投影方差理論、最小投影距離理論和座標軸相關度理論

4、 直觀理解:找出資料裡最主要的成分,代替原始資料並使損失儘可能的小

機器學習:特徵工程之主成分分析PCA

機器學習:特徵工程之主成分分析PCA

a) 樣本點到超平面的距離足夠近

b) 樣本點在這個超平面的投影儘可能的分開

二、PCA的推導:基於最小投影距離

1、 標準化後的m個數據

\{x^{(1)},x^{(2)},⋯,x^{(m)} \}

2、 新座標系

\{w_{1},w_{2},⋯,w_{m} \}

,w是標準正交基

3、 資料在

n^{

維中的投影

z^{(i)} = \{ z_1^{(i)}, z_2^{(i)},⋯,z_{n^{

,轉換後的變數在原空間中的表示

x ̅^{(i)}=Wz^{(i)}

4、 目標最佳化函式

機器學習:特徵工程之主成分分析PCA

機器學習:特徵工程之主成分分析PCA

5、 公式簡化

機器學習:特徵工程之主成分分析PCA

機器學習:特徵工程之主成分分析PCA

則目標函式等價於

機器學習:特徵工程之主成分分析PCA

機器學習:特徵工程之主成分分析PCA

6、 求解變換矩陣W

a) 由拉格朗日乘子法可得

J(W)=-tr(W^T XX^T W)+λ(W^T W-I)

b) 對W求導取零求極值,有

-2XX^T W+2λW=0

,即

XX^T W=λW

c) 可知W為的特徵向量組成的矩陣,

λ

為特徵值

三、PCA的推導:基於最大投影方差

1、 符號表義如(二)中所示

2、 任意樣本

x^{(i)}

,新座標系中的投影

W^T x^{(i)}

,投影方差為

W^T XX^T W

,最大投影方差的目標函式如下

機器學習:特徵工程之主成分分析PCA

機器學習:特徵工程之主成分分析PCA

3、 求解變換矩陣W(過程同二):

XX^T W=(-λ)W

四、PCA演算法流程

1、 中心化所有樣本資料(標準化)

2、 計算樣本集的協方差矩陣

3、 對矩陣進行特徵值分解,獲得特徵值和特徵向量

4、 將特徵值按照從大到小的順序排序,選擇其中最大的k個特徵值對應的特徵向量,標準化後組成變換矩陣W

5、 對每個樣本進行投影變換以獲得新(壓縮後)的樣本集