Fisher线性判别

简介

Fisher线性判别的本质是线性判别,即线性分类。它的思想是由于维数灾难,所以需要降低维数,再设计线性分类器。

再简单地说,Fisher就是也只是将 d 维分类问题转化为一维分类问题。

有点类似于PCA,同属于降维,不过PCA中没有类别标签,所以PCA根据的是总体样本之间的样本方差大小来进行降维。而Fisher是高维空间中存在多个类,所以降维的时候需要考虑到类内距离和类间距离。

这里直接把《模式识别》书里的写过来。

正文

考虑把 d 维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维。然而,如果样本在 d 维空间里形成若干紧凑的互相分得开的集群,若把它们投影到一条任意的直线上,也可能是几类样本混在一起而变得无法识别。但在一般情况下,总可以找到某个方向,使在这个方向的直线上,样本的投影能分开得最好。问题是如何根据实际情况找到这条最好的、最易于分类的投影线。这就是Fisher要解决的基本问题。

首先,讨论从 d 维空间到一维空间的一般数学变换方法。假设有一集合 H 包含 Nd 维样本 xx1,x2,,xN,其中 N1 个属于 ω1 类的样本记为子集 H1N2 个属于 ω2 类的样本记为 H2 。若对 xxn 的分量作线性组合可得标量

(1)yn=wwTxxn,n=1,2,...,Ni

这样便得到 N 个一维样本 yn 组成的集合,并可分为两个子集 Y1Y2。从几何上看,如果 ||ww||=1,则每个 yn 就是相对应的 xxn 到方向为 ww 的直线上的投影。实际上,ww 的绝对值是无关紧要的,它仅使 yn 乘上一个比例因子,重要的是选择 ww 的方向。ww 的方向不同,将使样本投影后的可分离程度不同,从而直接影响识别效果。因此,前述所谓寻找最好投影方向的问题,在数学上就是寻找最好的变换向量 ww 的问题。

在定义Fisher准则函数之前,我们先定义几个必要的基本参量。

  1. dX 空间

    (1) 各类样本均值向量 mmi

    (2)mmi=1NixxHixx,i=1,2

    (2) 样本类内离散度矩阵 Si 和总类内离散度矩阵 Sw

    (3)Si=xxHi(xxmmi)(xxmmi)T,i=1,2(4)Sw=S1+S2

    (3) 样本类间离散度矩阵 Sb

    (5)Sb=(mm1mm2)(mm1mm2)T

其中 Sw 是对称半正定矩阵,,而且当 N>d 时通常是非奇异的。Sb 也是对称非正定矩阵,在两类条件下,它的秩最大等于1。

  1. 在 1 维 Y 空间

    (1) 各类样本均值 m~

    (6)m~i=1NiyYiy,i=1,2

    (2) 样本类内离散度 S~i2 和总类内离散度 S~w

    (7)S~i2=yYi(ym~2)2,i=1,2(8)S~w=S~12+S~22

现在定义Fisher准则函数。我们希望投影后,在一维 Y 空间里各类样本尽可能分得开些,即希望两类均值之差 (m~1m~2) 越大越好;同时希望各类样本内部尽量密集。即希望类内离散度越小越好。因此,可以定义Fisher准则函数为

(9)JJF(ww)=(m~1m~2)2S~12+S~22

显然应该寻找使 JF(w) 的分子尽可能大,而分母尽可能小,也就是使 JF(w) 尽可能大的 ww 作为投影方向。但(9)式的 JF(ww) 并不显含 w,因此必须设法将 JF(ww) 变成 ww 的显函数。由(6)式可推出,

(10)mm~i=1NiyYiy=1NixxRiwwTxx=wwT(1NixxRixx)=wwTmmi

这样,(9)式的分子便成为

(11)(mm~1mm~2)=(wwTmm1wwTmm2)2=wwT(mm1mm2)(mm1mm2)Tww=wwTSbww

再来考察 JF(ww) 的分母与 ww 的关系。

(12)S~i2=yYi(ym~i)2=xxRi(wwTxxwwTmmi)2=wwT[xxRi(xxmmi)(xxmmi)T]ww=wwTSiww

因此,

(13)S~12+S~22=wwT(S1+S2)ww=wwTSwww

将(11)(13)代入(9),可得

(14)JF(ww)=wwTSbwwwwTSwww

下面求使 JF(ww) 取极大值时的 ww 。(14)式中的 JF(ww) 是广义Rayleigh商,可以用Lagrange乘子法求解。令分母等于非零常数,即令

wwTSwww=c0

定义Lagrange函数为

(15)L(ww,λ)=wwTSbwwλ(wwTSwwwc)

式中 λ 为Lagrange乘子。将(15)式对 ww 求偏导数,得

L(ww,λ)ww=SbwwλSwww

令偏导数为零,得

SbwwλSwww=0

(16)Sbww=λSwww

其中 ww 就是 JF(ww) 的极值解。因为 Sw 非奇异,(16)式两边左乘 Sw1,可得

(17)Sw1Sbww=λmm

(17)式为求一般矩阵 Sw1Sb 的本征值问题。但在我们这个特殊情况下,利用(5)式 Sb 的定义,(17)式左边的 Sbww 可以写成

Sbww=(mm1mm2)(mm1mm2)Tww=(mm1mm2)R

式中,R=(mm1mm2)Tww,为一标量,所以 Sbww 总是在向量 (mm1mm2) 的方向上。由于我们的目的是寻找最好的投影方向,ww 的比例因子对此并无影响,因此,从(17)式可得

λww=Sw1(Sbww)=Sw1(mm1mm2)R

从而可得

(18)ww=RλSw1(mm1mm2)

忽略比例因子 R/λ,得

ww=Sw1(mm1mm2)

ww 就是使Fisher准则函数 JF(ww) 取极大值时得解,也就是 dX 空间到一维 Y 空间的最好投影空间。有了 ww ,利用(1)式,就可以把 d 维样本 xxn 投影到一维,这实际上是多维空间到一维空间的一种映射。

至此,还没有解决分类问题。只是将 d 维分类问题转化为一维分类问题了。之后可以根据几种一维分类问题的基本原则进行分类。

一分一毛,也是心意。