本筆記基於我校統計中心《多元統計分析》課程(2020春),使用教材:Applied Multivariate Statistical Analysis by

R。 A。 Johnson & D。 W。 Wichern

上期入口:

Lecture 10 典型相關分析 (CCA)

希望尋找到兩組隨機變數(兩個隨機向量)的相關關係對。模型:考慮兩個隨機向量

X^{(1)}=[\begin{matrix}X_1^{(1)},...,X_p^{(1)}\end{matrix}]^T\\ X^{(2)}=[\begin{matrix}X_1^{(2)},...,X_q^{(2)}\end{matrix}]^T\\ \\

有協方差矩陣

\Sigma=\left[\begin{matrix}\Sigma_{11}&\Sigma_{12}\\\Sigma_{21}&\Sigma_{22}\end{matrix}\right] \\

目標:找到一對係數向量

a,b

,使

\text{Cor}(U,V)

儘可能大,其中

U=a^TX^{(1)},V=b^TX^{(2)} \\

這樣每次能選出來一個相關對

U,V

。正式地,第

i

典型相關對的選擇標準是

\max_{a_i,b_i\neq 0}\frac{a_i^T\Sigma_{12}b_i}{\sqrt{a_i^T\Sigma_{11}a_i}\sqrt{b_i^T\Sigma_{22}b_i}}\\ \text{s.t. Var}(U_i)=a_i^T\Sigma_{11}a_i=1,\text{ Var}(V_i)=b_i^T\Sigma_{22}b_i=1\\ \text{Cov}(U_i,U_k)=0,\text{Cov}(V_i,V_k)=0,\forall k<i \\

經過一些推導(此處略),相關對的結果為

U_i=e_i^T\Sigma_{11}^{-1/2}X^{(1)},V_i=f_i^T\Sigma_{22}^{-1/2}X^{(2)} \\

其中

e_1,...,e_p

為矩陣

T_1=\Sigma_{11}^{-1/2}\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\Sigma_{11}^{-1/2}

的特徵向量,

f_1,...,f_p

為矩陣

T_2=\Sigma_{22}^{-1/2}\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}\Sigma_{22}^{-1/2}

的特徵向量。且有

f_k=\frac{1}{\rho^*_k}\Sigma_{22}^{-1/2}\Sigma_{21}\Sigma_{11}^{-1/2}e_k \\

這裡

\rho_k^*

同時是矩陣

T_1

T_2

的從大到小排列的特徵值。

特性:

\text{Var}(U_k)=\text{Var}(V_k)=1\\ \text{Cov}(U_k,U_l)=\text{Cov}(V_k,V_l)=\text{Cov}(U_k,V_l)=0,k\neq l \\

對標準化後的資料做CCA,只用將原來的協方差矩陣

\Sigma

替換為相關係數矩陣

\rho

即可。

R函式:

cancor

Lecture 11 判別分析 (LDA)

目標:從已知的有標籤資料中學習標籤資訊,從而為新資料預測標籤。

本節以兩標籤為例,更多標籤的LDA暫不要求。

Fisher方法

想法:使用線性變換將兩標籤儘量分開。

假設:兩標籤的協方差矩陣相同,無分佈假設。

目標:從原資料線性變換後得到資料

y=a^Tx

,然後最佳化

\max_a\frac{(\bar y_1-\bar y_2)^2}{s_y^2} \\

其中

s_y^2=\frac{\sum_{j=1}^{n_1}(y_{1j}-\bar y_1)^2+\sum_{j=1}^{n_2}(y_{2j}-\bar y_2)^2}{n_1+n_2-2} \\

為pooled sample variance。

最佳化結果:

\hat y=\hat a^Tx=(\bar x_1-\bar x_2)^T S_p^{-1}x \\

其中

S_p

為pooled樣本協方差矩陣。此時達到最大的目標值為

D^T=(\bar x_1-\bar x_2)^TS_p^{-1}(\bar x_1-\bar x_2) \\

基於likelihood的方法

模型:兩個標籤

\pi_1,\pi_2

有密度函式

f_1(x),f_2(x)

;令

\Omega

為樣本空間,

R_1,R_2

分別為要劃分到兩個標籤的樣本空間,有

R_1+R_2=\Omega

資訊:屬於兩個標籤的先驗機率為

p_1,p_2

,錯分成本為

c(2|1),c(1|2)

(分別為將1分為2和將2分為1的成本)

目標:

最小化期望錯分成本

\text{ECM}=p_1c(2|1)\int_{R_2}f_1(x)dx +p_2c(1|2)\int_{R_2}f_2(x)dx \\

要最小化上式,得到

R_1=\left\{x\mid\frac{f_1(x)}{f_2(x)}\geq \frac{c(1|2)}{c(2|1)}\frac{p_2}{p_1}\right\}\\ R_2=\left\{x\mid\frac{f_1(x)}{f_2(x)}< \frac{c(1|2)}{c(2|1)}\frac{p_2}{p_1}\right\} \\

最小化總錯分機率

\text{TPM}=p_1\int_{R_2}f_1(x)dx +p_2\int_{R_2}f_2(x)dx \\

依據後驗機率分類

R_1=\left\{ p(\pi_1|x_0)>p(\pi_2|x_0) \right\} \\

其中

p(\pi_1|x_0)=\frac{p_1f_1(x_0)}{p_1f_1(x_0)+p_2f_2(x_0)}\\ p(\pi_2|x_0)=\frac{p_2f_2(x_0)}{p_1f_1(x_0)+p_2f_2(x_0)} \\

在正態分佈下ECM的應用

此時

\pi_1:\mathcal N(\mu_1,\sigma_1),\pi_2:\mathcal N(\mu_2,\sigma_2)

等方差情形:(此處對正態分佈pdf取了對數)

R_1=\left\{x\mid (\mu_1-\mu_2)^T\Sigma^{-1}x-\frac{1}{2}(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1+\mu_2)\geq \ln\left(\frac{c(1|2)}{c(2|1)}\frac{p_2}{p_1}\right)\right\}\\ R_2=\left\{x\mid (\mu_1-\mu_2)^T\Sigma^{-1}x-\frac{1}{2}(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1+\mu_2)< \ln\left(\frac{c(1|2)}{c(2|1)}\frac{p_2}{p_1}\right)\right\}\\ \\

\frac{c(1|2)}{c(2|1)}\frac{p_2}{p_1}=1

時,和Fisher判別方法等價

異方差情形:

R_1=\left\{x\mid -\frac{1}{2}x^T(\Sigma_1^{-1}-\Sigma_2^{-1})x+(\mu_1^T\Sigma_1^{-1}-\mu_2^T\Sigma_2^{-1})x-k\geq \ln\left(\frac{c(1|2)}{c(2|1)}\frac{p_2}{p_1}\right)\right\}\\ R_2=\left\{x\mid -\frac{1}{2}x^T(\Sigma_1^{-1}-\Sigma_2^{-1})x+(\mu_1^T\Sigma_1^{-1}-\mu_2^T\Sigma_2^{-1})x-k< \ln\left(\frac{c(1|2)}{c(2|1)}\frac{p_2}{p_1}\right)\right\}\\ \\

其中

k=\frac{1}{2}\ln\left(\frac{|\Sigma_1|}{|\Sigma_2|}\right)+\frac{1}{2}(\mu_1^T\Sigma_1^{-1}\mu_1-\mu_2^T\Sigma_2^{-1}\mu_2) \\

評估分類水平

對已知分佈的資料,可以使用總錯分率來評價,如對正態分佈,定義

\Delta^2\mathop{=}^{\Delta}a^T\Sigma a=(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2) \\

於是總錯分率為

\Phi(-\frac{\delta}{2})

對未知分佈的資料,可以使用apparent error rate (APER),即使用資料中的頻率估計機率。定義實際標籤資料數量為

n_1,n_2

,將1錯分為2的數量為

n_{1M}

,將2錯分為1的數量為

n_{2M}

,則

\text{APER}=\frac{n_{1M}+n_{2M}}{n_1+n_2} \\

R函式:

MASS

包中的

predict。lda

Lecture 13 聚類分析

目標:在無標籤資料中提取類別 (cluster) 資訊

層次聚類 (Hierarchical Clustering)

兩種基本型別:

Agglomerative:初始每個點自成一類,每次合併最接近的兩類

Divisive:初始所有點為一大類,每次進行一次split

本節考慮前一種型別。該演算法需要給定“接近”的定義,包括

點和點之間的距離定義:使用歐氏距離、相關性等

類和類之間的距離定義:

Single linkage:類A和類B裡點點距離中最短距離

Complete linkage:類A和類B裡點點距離中最大距離

Group average:類A和類B裡全部點點距離中的平均

Distance between centroids:類A的重心到類B的重心的距離

Ward‘s linkage:類A和類B合併後增加的SSE作為距離

層次聚類的優勢:不用先定聚類的個數,能夠直觀展示樹狀關係

層次聚類的侷限性:時空複雜度較高;兩類一旦被合併不會再拆開;沒有顯式目標函式;對離群值和噪聲敏感;對非凸或尺寸差異較大的類效果不好

R函式:

hclust

Partitioning Clustering:K-means

初始化

k

箇中心點

重複:

把每個資料點分配到離它最近的中心點的類中

對每個類更新其中心點

需要指定:聚類個數

k

,點間距離的度量方式,初始點的選擇

目標函式:

J(c,\mu)=\sum_{i=1}^n|X_i-\mu_{c_i}|^2 \\

K-means的優勢:計算複雜度低

K-means的侷限性:對離群值敏感;對非凸或尺寸差異較大的類效果不好

R函式:

kmeans

至此多元統計系列完結啦~