本筆記基於我校統計中心《多元統計分析》課程(2020春),使用教材:Applied Multivariate Statistical Analysis by
R。 A。 Johnson & D。 W。 Wichern
上期入口:
Lecture 10 典型相關分析 (CCA)
希望尋找到兩組隨機變數(兩個隨機向量)的相關關係對。模型:考慮兩個隨機向量
有協方差矩陣
目標:找到一對係數向量
,使
儘可能大,其中
這樣每次能選出來一個相關對
。正式地,第
典型相關對的選擇標準是
經過一些推導(此處略),相關對的結果為
其中
為矩陣
的特徵向量,
為矩陣
的特徵向量。且有
這裡
同時是矩陣
和
的從大到小排列的特徵值。
特性:
對標準化後的資料做CCA,只用將原來的協方差矩陣
替換為相關係數矩陣
即可。
R函式:
cancor
Lecture 11 判別分析 (LDA)
目標:從已知的有標籤資料中學習標籤資訊,從而為新資料預測標籤。
本節以兩標籤為例,更多標籤的LDA暫不要求。
Fisher方法
想法:使用線性變換將兩標籤儘量分開。
假設:兩標籤的協方差矩陣相同,無分佈假設。
目標:從原資料線性變換後得到資料
,然後最佳化
其中
為pooled sample variance。
最佳化結果:
其中
為pooled樣本協方差矩陣。此時達到最大的目標值為
基於likelihood的方法
模型:兩個標籤
有密度函式
;令
為樣本空間,
分別為要劃分到兩個標籤的樣本空間,有
。
資訊:屬於兩個標籤的先驗機率為
,錯分成本為
(分別為將1分為2和將2分為1的成本)
目標:
最小化期望錯分成本
要最小化上式,得到
最小化總錯分機率
依據後驗機率分類
其中
在正態分佈下ECM的應用
此時
等方差情形:(此處對正態分佈pdf取了對數)
當
時,和Fisher判別方法等價
異方差情形:
其中
評估分類水平
對已知分佈的資料,可以使用總錯分率來評價,如對正態分佈,定義
於是總錯分率為
。
對未知分佈的資料,可以使用apparent error rate (APER),即使用資料中的頻率估計機率。定義實際標籤資料數量為
,將1錯分為2的數量為
,將2錯分為1的數量為
,則
R函式:
MASS
包中的
predict。lda
Lecture 13 聚類分析
目標:在無標籤資料中提取類別 (cluster) 資訊
層次聚類 (Hierarchical Clustering)
兩種基本型別:
Agglomerative:初始每個點自成一類,每次合併最接近的兩類
Divisive:初始所有點為一大類,每次進行一次split
本節考慮前一種型別。該演算法需要給定“接近”的定義,包括
點和點之間的距離定義:使用歐氏距離、相關性等
類和類之間的距離定義:
Single linkage:類A和類B裡點點距離中最短距離
Complete linkage:類A和類B裡點點距離中最大距離
Group average:類A和類B裡全部點點距離中的平均
Distance between centroids:類A的重心到類B的重心的距離
Ward‘s linkage:類A和類B合併後增加的SSE作為距離
層次聚類的優勢:不用先定聚類的個數,能夠直觀展示樹狀關係
層次聚類的侷限性:時空複雜度較高;兩類一旦被合併不會再拆開;沒有顯式目標函式;對離群值和噪聲敏感;對非凸或尺寸差異較大的類效果不好
R函式:
hclust
Partitioning Clustering:K-means
初始化
箇中心點
重複:
把每個資料點分配到離它最近的中心點的類中
對每個類更新其中心點
需要指定:聚類個數
,點間距離的度量方式,初始點的選擇
目標函式:
K-means的優勢:計算複雜度低
K-means的侷限性:對離群值敏感;對非凸或尺寸差異較大的類效果不好
R函式:
kmeans
至此多元統計系列完結啦~