多元統計課程筆記（5）典型相關分析，判別分析，聚類分析

本筆記基於我校統計中心《多元統計分析》課程（2020春），使用教材：Applied Multivariate Statistical Analysis by

R。 A。 Johnson & D。 W。 Wichern

上期入口：

Lecture 10 典型相關分析 (CCA)

希望尋找到兩組隨機變數（兩個隨機向量）的相關關係對。模型：考慮兩個隨機向量

$X^{(1)}=[\begin{matrix}X_1^{(1)},...,X_p^{(1)}\end{matrix}]^T\\ X^{(2)}=[\begin{matrix}X_1^{(2)},...,X_q^{(2)}\end{matrix}]^T\\ \\$

有協方差矩陣

$\Sigma=\left[\begin{matrix}\Sigma_{11}&\Sigma_{12}\\\Sigma_{21}&\Sigma_{22}\end{matrix}\right] \\$

目標：找到一對係數向量

，使

$\text{Cor}(U,V)$

儘可能大，其中

$U=a^TX^{(1)},V=b^TX^{(2)} \\$

這樣每次能選出來一個相關對

。正式地，第

典型相關對的選擇標準是

$\max_{a_i,b_i\neq 0}\frac{a_i^T\Sigma_{12}b_i}{\sqrt{a_i^T\Sigma_{11}a_i}\sqrt{b_i^T\Sigma_{22}b_i}}\\ \text{s.t. Var}(U_i)=a_i^T\Sigma_{11}a_i=1,\text{ Var}(V_i)=b_i^T\Sigma_{22}b_i=1\\ \text{Cov}(U_i,U_k)=0,\text{Cov}(V_i,V_k)=0,\forall k<i \\$

經過一些推導（此處略），相關對的結果為

$U_i=e_i^T\Sigma_{11}^{-1/2}X^{(1)},V_i=f_i^T\Sigma_{22}^{-1/2}X^{(2)} \\$

其中

為矩陣

$T_1=\Sigma_{11}^{-1/2}\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\Sigma_{11}^{-1/2}$

的特徵向量，

為矩陣

$T_2=\Sigma_{22}^{-1/2}\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}\Sigma_{22}^{-1/2}$

的特徵向量。且有

$f_k=\frac{1}{\rho^*_k}\Sigma_{22}^{-1/2}\Sigma_{21}\Sigma_{11}^{-1/2}e_k \\$

這裡

$\rho_k^*$

同時是矩陣

和

的從大到小排列的特徵值。

特性：

$\text{Var}(U_k)=\text{Var}(V_k)=1\\ \text{Cov}(U_k,U_l)=\text{Cov}(V_k,V_l)=\text{Cov}(U_k,V_l)=0,k\neq l \\$

對標準化後的資料做CCA，只用將原來的協方差矩陣

$\Sigma$

替換為相關係數矩陣

$\rho$

即可。

R函式：

cancor

Lecture 11 判別分析 (LDA)

目標：從已知的有標籤資料中學習標籤資訊，從而為新資料預測標籤。

本節以兩標籤為例，更多標籤的LDA暫不要求。

Fisher方法

想法：使用線性變換將兩標籤儘量分開。

假設：兩標籤的協方差矩陣相同，無分佈假設。

目標：從原資料線性變換後得到資料

，然後最佳化

$\max_a\frac{(\bar y_1-\bar y_2)^2}{s_y^2} \\$

其中

$s_y^2=\frac{\sum_{j=1}^{n_1}(y_{1j}-\bar y_1)^2+\sum_{j=1}^{n_2}(y_{2j}-\bar y_2)^2}{n_1+n_2-2} \\$

為pooled sample variance。

最佳化結果：

$\hat y=\hat a^Tx=(\bar x_1-\bar x_2)^T S_p^{-1}x \\$

其中

為pooled樣本協方差矩陣。此時達到最大的目標值為

$D^T=(\bar x_1-\bar x_2)^TS_p^{-1}(\bar x_1-\bar x_2) \\$

基於likelihood的方法

模型：兩個標籤

$\pi_1,\pi_2$

有密度函式

；令

$\Omega$

為樣本空間，

分別為要劃分到兩個標籤的樣本空間，有

$R_1+R_2=\Omega$

。

資訊：屬於兩個標籤的先驗機率為

，錯分成本為

（分別為將1分為2和將2分為1的成本）

目標：

最小化期望錯分成本

$\text{ECM}=p_1c(2|1)\int_{R_2}f_1(x)dx +p_2c(1|2)\int_{R_2}f_2(x)dx \\$

要最小化上式，得到

$R_1=\left\{x\mid\frac{f_1(x)}{f_2(x)}\geq \frac{c(1|2)}{c(2|1)}\frac{p_2}{p_1}\right\}\\ R_2=\left\{x\mid\frac{f_1(x)}{f_2(x)}< \frac{c(1|2)}{c(2|1)}\frac{p_2}{p_1}\right\} \\$

最小化總錯分機率

$\text{TPM}=p_1\int_{R_2}f_1(x)dx +p_2\int_{R_2}f_2(x)dx \\$

依據後驗機率分類

$R_1=\left\{ p(\pi_1|x_0)>p(\pi_2|x_0) \right\} \\$

其中

$p(\pi_1|x_0)=\frac{p_1f_1(x_0)}{p_1f_1(x_0)+p_2f_2(x_0)}\\ p(\pi_2|x_0)=\frac{p_2f_2(x_0)}{p_1f_1(x_0)+p_2f_2(x_0)} \\$

在正態分佈下ECM的應用

此時

$\pi_1:\mathcal N(\mu_1,\sigma_1),\pi_2:\mathcal N(\mu_2,\sigma_2)$

等方差情形：（此處對正態分佈pdf取了對數）

$R_1=\left\{x\mid (\mu_1-\mu_2)^T\Sigma^{-1}x-\frac{1}{2}(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1+\mu_2)\geq \ln\left(\frac{c(1|2)}{c(2|1)}\frac{p_2}{p_1}\right)\right\}\\ R_2=\left\{x\mid (\mu_1-\mu_2)^T\Sigma^{-1}x-\frac{1}{2}(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1+\mu_2)< \ln\left(\frac{c(1|2)}{c(2|1)}\frac{p_2}{p_1}\right)\right\}\\ \\$

當

$\frac{c(1|2)}{c(2|1)}\frac{p_2}{p_1}=1$

時，和Fisher判別方法等價

異方差情形：

$R_1=\left\{x\mid -\frac{1}{2}x^T(\Sigma_1^{-1}-\Sigma_2^{-1})x+(\mu_1^T\Sigma_1^{-1}-\mu_2^T\Sigma_2^{-1})x-k\geq \ln\left(\frac{c(1|2)}{c(2|1)}\frac{p_2}{p_1}\right)\right\}\\ R_2=\left\{x\mid -\frac{1}{2}x^T(\Sigma_1^{-1}-\Sigma_2^{-1})x+(\mu_1^T\Sigma_1^{-1}-\mu_2^T\Sigma_2^{-1})x-k< \ln\left(\frac{c(1|2)}{c(2|1)}\frac{p_2}{p_1}\right)\right\}\\ \\$

其中

$k=\frac{1}{2}\ln\left(\frac{|\Sigma_1|}{|\Sigma_2|}\right)+\frac{1}{2}(\mu_1^T\Sigma_1^{-1}\mu_1-\mu_2^T\Sigma_2^{-1}\mu_2) \\$

評估分類水平

對已知分佈的資料，可以使用總錯分率來評價，如對正態分佈，定義

$\Delta^2\mathop{=}^{\Delta}a^T\Sigma a=(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2) \\$

於是總錯分率為

$\Phi(-\frac{\delta}{2})$

。

對未知分佈的資料，可以使用apparent error rate （APER），即使用資料中的頻率估計機率。定義實際標籤資料數量為

，將1錯分為2的數量為

$n_{1M}$

，將2錯分為1的數量為

$n_{2M}$

，則

$\text{APER}=\frac{n_{1M}+n_{2M}}{n_1+n_2} \\$

R函式：

MASS

包中的

predict。lda

Lecture 13 聚類分析

目標：在無標籤資料中提取類別（cluster）資訊

層次聚類 (Hierarchical Clustering)

兩種基本型別：

Agglomerative：初始每個點自成一類，每次合併最接近的兩類

Divisive：初始所有點為一大類，每次進行一次split

本節考慮前一種型別。該演算法需要給定“接近”的定義，包括

點和點之間的距離定義：使用歐氏距離、相關性等

類和類之間的距離定義：

Single linkage：類A和類B裡點點距離中最短距離

Complete linkage：類A和類B裡點點距離中最大距離

Group average：類A和類B裡全部點點距離中的平均

Distance between centroids：類A的重心到類B的重心的距離

Ward‘s linkage：類A和類B合併後增加的SSE作為距離

層次聚類的優勢：不用先定聚類的個數，能夠直觀展示樹狀關係

層次聚類的侷限性：時空複雜度較高；兩類一旦被合併不會再拆開；沒有顯式目標函式；對離群值和噪聲敏感；對非凸或尺寸差異較大的類效果不好

R函式：

hclust

Partitioning Clustering：K-means

初始化

箇中心點

重複：

把每個資料點分配到離它最近的中心點的類中

對每個類更新其中心點

需要指定：聚類個數

，點間距離的度量方式，初始點的選擇

目標函式：

$J(c,\mu)=\sum_{i=1}^n|X_i-\mu_{c_i}|^2 \\$

K-means的優勢：計算複雜度低

K-means的侷限性：對離群值敏感；對非凸或尺寸差異較大的類效果不好

R函式：

kmeans

至此多元統計系列完結啦~

多元統計課程筆記（5）典型相關分析，判別分析，聚類分析

最近吃一些胃藥出現過敏，但我現在也不知道是不是藥物過敏，之前是沒有的，我是否要停藥（男，27歲）

為什麼總叫康熙四妃康熙不是五妃嗎為什麼單單踢開良妃呀

隨便看看

男生喊你一起吃飯啥意思？

為什麼今年都要八月十五中秋節了還那麼熱？

紅燒肉燜豆角怎麼做？

6個月的狗狗能吃奶糕的狗糧嗎？

多元統計課程筆記（5）典型相關分析，判別分析，聚類分析

最近吃一些胃藥出現過敏，但我現在也不知道是不是藥物過敏，之前是沒有的，我是否要停藥（男，27歲）

為什麼總叫康熙四妃 康熙不是五妃嗎 為什麼單單踢開良妃呀

猜你喜歡

SPSS中如何給數值新增“值標籤”？

立邦漆怎麼辨別倒桶？

矩陣的合同標準形什麼意思？

隨便看看

男生喊你一起吃飯啥意思？

為什麼今年都要八月十五中秋節了還那麼熱？

紅燒肉燜豆角怎麼做？

6個月的狗狗能吃奶糕的狗糧嗎？

為什麼總叫康熙四妃康熙不是五妃嗎為什麼單單踢開良妃呀