简介
Fisher线性判别的本质是线性判别,即线性分类。它的思想是由于维数灾难,所以需要降低维数,再设计线性分类器。
再简单地说,Fisher就是也只是将 维分类问题转化为一维分类问题。
有点类似于PCA,同属于降维,不过PCA中没有类别标签,所以PCA根据的是总体样本之间的样本方差大小来进行降维。而Fisher是高维空间中存在多个类,所以降维的时候需要考虑到类内距离和类间距离。
这里直接把《模式识别》书里的写过来。
正文
考虑把 维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维。然而,如果样本在 维空间里形成若干紧凑的互相分得开的集群,若把它们投影到一条任意的直线上,也可能是几类样本混在一起而变得无法识别。但在一般情况下,总可以找到某个方向,使在这个方向的直线上,样本的投影能分开得最好。问题是如何根据实际情况找到这条最好的、最易于分类的投影线。这就是Fisher要解决的基本问题。

首先,讨论从 维空间到一维空间的一般数学变换方法。假设有一集合 包含 个 维样本 ,其中 个属于 类的样本记为子集 , 个属于 类的样本记为 。若对 的分量作线性组合可得标量
这样便得到 个一维样本 组成的集合,并可分为两个子集 和 。从几何上看,如果 ,则每个 就是相对应的 到方向为 的直线上的投影。实际上, 的绝对值是无关紧要的,它仅使 乘上一个比例因子,重要的是选择 的方向。 的方向不同,将使样本投影后的可分离程度不同,从而直接影响识别效果。因此,前述所谓寻找最好投影方向的问题,在数学上就是寻找最好的变换向量 的问题。
在定义Fisher准则函数之前,我们先定义几个必要的基本参量。
在 维 空间
(1) 各类样本均值向量
(2) 样本类内离散度矩阵 和总类内离散度矩阵
(3) 样本类间离散度矩阵
其中 是对称半正定矩阵,,而且当 时通常是非奇异的。 也是对称非正定矩阵,在两类条件下,它的秩最大等于1。
在 1 维 空间
(1) 各类样本均值
(2) 样本类内离散度 和总类内离散度
现在定义Fisher准则函数。我们希望投影后,在一维 空间里各类样本尽可能分得开些,即希望两类均值之差 越大越好;同时希望各类样本内部尽量密集。即希望类内离散度越小越好。因此,可以定义Fisher准则函数为
显然应该寻找使 的分子尽可能大,而分母尽可能小,也就是使 尽可能大的 作为投影方向。但(9)式的 并不显含 ,因此必须设法将 变成 的显函数。由(6)式可推出,
这样,(9)式的分子便成为
再来考察 的分母与 的关系。
因此,
将(11)(13)代入(9),可得
下面求使 取极大值时的 。(14)式中的 是广义Rayleigh商,可以用Lagrange乘子法求解。令分母等于非零常数,即令
定义Lagrange函数为
式中 为Lagrange乘子。将(15)式对 求偏导数,得
令偏导数为零,得
即
其中 就是 的极值解。因为 非奇异,(16)式两边左乘 ,可得
(17)式为求一般矩阵 的本征值问题。但在我们这个特殊情况下,利用(5)式 的定义,(17)式左边的 可以写成
式中,,为一标量,所以 总是在向量 的方向上。由于我们的目的是寻找最好的投影方向, 的比例因子对此并无影响,因此,从(17)式可得
从而可得
忽略比例因子 ,得
就是使Fisher准则函数 取极大值时得解,也就是 维 空间到一维 空间的最好投影空间。有了 ,利用(1)式,就可以把 维样本 投影到一维,这实际上是多维空间到一维空间的一种映射。
至此,还没有解决分类问题。只是将 维分类问题转化为一维分类问题了。之后可以根据几种一维分类问题的基本原则进行分类。