線性判別分析LDA-經典

在討論LDA之前，有必要將其自然語言處理領域的LDA區別開來，在自然語言處理領域， LDA是隱含狄利克雷分佈（Latent Dirichlet Allocation，簡稱LDA），他是一種處理文件的主題模型。我們本文只討論線性判別分析，因此後面所有的LDA均指線性判別分析。

線性判別分析（Linear Discriminant Analysis，以下簡稱LDA）是一種經典的線性學習方法，常被用於分類和降維任務中。在PyProphet的演算法中被應用為綜合評分的元件之一，故有必要對LDA演算法進行總結，本篇只講述經典的LDA演算法。

LDA方法

LDA是模式識別的經典演算法，在1996年由Belhumeur引入模式識別和人工智慧領域。LDA的思想可以用一句話概括，就是“投影后類內方差最小，類間方差最大”。具體是什麼意思呢？給定訓練樣本集，設法選取一條直線並將樣本投影到直線上，投影后希望每一種類別資料的投影點儘可能的接近，而不同類別的資料的類別中心之間的距離儘可能的大。在對新樣本進行分類時，將其投影到選取的直線上，根據投影點的位置來確定新的樣本所屬的類別。

可能還是有點抽象，我們先看看最簡單的情況。假設我們有兩類資料分別為紅色和藍色，如下圖所示，這些資料特徵是二維的，我們希望將這些資料投影到一維的一條直線，讓每一種類別資料的投影點儘可能的接近，而紅色和藍色資料中心之間的距離儘可能的大。

上圖是紅藍資料在選取的兩條直線上的投影，哪一種能更好的滿足我們的標準呢？從直觀上可以看出，右圖要比左圖的投影效果好，因為右圖的紅色資料和藍色資料在投影方向上分佈較為集中，且類別之間的距離明顯。而左圖在邊界處沒有明顯的分界線。

以上就是LDA的主要思想了，當然在實際應用中，我們的資料是多個類別的，我們的原始資料一般也是超過二維的，投影后的也一般不是直線，而是一個低維的超平面。

LDA公式推導

給定資料集

$D=\left\{(x_i,y_i)\right\}_{i=1}^m$

，設定：

1。

：第

類樣本的集合

2。

$\mu_i$

：第

類樣本的均值向量

3。

$\sum_i$

：第

類樣本的協方差矩陣

由此可以得到第

類樣本中心在直線上的投影為

${\omega ^T}{\mu _i}$

，協方差為

${\omega ^T}{\sum _i} {\omega}$

（對映後協方差之和）。以二分類為例，

要保證同一類儘量靠近，那麼

${\omega ^T}{\sum _0}\omega+{\omega ^T}{\sum _1}\omega$

要儘可能的小

要保證不同類間相隔很遠，需要讓

$\left\| {\left. {\omega^T \mu_0-\omega^T \mu_1 } \right\|} \right.^2_2$

儘可能的大

因此LDA最終需要達到的目標就是最大化

：

$J=\frac{\left\| {\left. {\omega^T \mu_0-\omega^T \mu_1 } \right\|} \right.^2_2}{{\omega ^T}{\sum _0}\omega+{\omega ^T}{\sum _1}\omega}=\frac{{\omega ^T}(\mu_0-\mu_1)(\mu_0-\mu_1)^T{\omega}}{{\omega ^T}({\sum _0}+{\sum _1})\omega}$