简介

在看VAE，属于生成模型，复习一下。

综合转载以下文章：

机器学习“判定模型”和“生成模型”有什么区别？

设置

定义训练数据为 $(C,X),C=\{c_1,c_2,…,c_n\}$ 是 $n$ 个训练样本的label，$X={x_1,x_2,…,x_n}$ 是 $n$ 个训练样本的feature。定义单个测试数据为 $(\tilde c,\tilde x)$，$\tilde c$ 为测试数据的lable，$\tilde x$是测试样本的feature。

判定模型

训练完毕后，输入测试数据，判别模型直接给出的是 $P(\tilde{c}|\tilde{x})$，即输出（label）关于输入（feature）的条件分布，实际上，这个分布的条件还有训练数据。因为实际上我们是“看过”训练数据之后，学习到了对数据分布的后验认识，然后根据这个认识和测试样本的feature来做出测试样本属于哪个label的决策的，所以有 $P(\tilde{c}|\tilde{x})=P(\tilde{c}|\tilde{x},C,X)$。

我们认为这个条件分布 $P(\tilde{c}|\tilde{x},C,X)$ 由参数 $\theta$ 决定的，即 $P(\tilde{c}|\tilde{x},\theta) \tag 1$。

那么如何$P(\tilde{c}|\tilde{x},\theta)$得到 $P(\tilde{c}|\tilde{x})$ 呢？如果我们可以求出参数 $\theta$ 关于训练数据的的后验分布（这其实就是学习过程）$P(\theta|C,X)$，那么就可以由

$P(\tilde{c}|\tilde{x})=P(\tilde{c}|\tilde{x},C,X)=\int P(\tilde{c},\theta|\tilde{x},C,X)d\theta=\int P(\tilde{c}|\tilde{x},\theta)P(\theta|C,X)d\theta \tag 2$

所以现在问题转化成了求条件分布的参数 $\theta$ 关于训练数据 $(C,X)$ 的后验分布 $P(\theta|C,X)$。那么我们来看看怎么求这个后验分布。而条件分布关于训练数据的似然函数为

$P(C|X,\theta)=L(\theta) = \prod_{i=1}^n P(c_i|x_i,\theta) \tag 3$

用贝叶斯公式转化，即

$P(\theta|C,X)=\frac{p(C|X,\theta)·P(\theta)}{P(C|X)} \tag 4$

所以现在问题又进行了转化，变成了求条件分布关于训练数据的似然函数、参数 $\theta$ 的先验分布和 $C$ 关于 $X$ 的条件分布三个小问题。我们已经知道似然函数怎么求，先验分布也不需要求（先验知识，就是我们在解决问题之前已经知道的知识），而

$P(C|X)=\int P(C,\theta|X)d\theta=\int P(C|X,\theta)·P(\theta)d\theta \tag 5$

至此问题已经解决，综合上述(1)~(5)式，可以求出输出关于输入的条件分布

$P(\tilde c|\tilde x)=\int P(\tilde c|\tilde x,\theta)·\frac{P(C|X,\theta)·P(\theta)}{\int P(C|X,\theta)·P(\theta)d\theta}d\theta \tag 6$

(6)式的两个积分的计算很麻烦，需要省略掉。

第一个积分可以使用variational inference（变分推理）替换掉，简单地说，如果训练样本足够多的话，可以使用 $\theta$ 的最大后验分布 $\theta_{map}$ 来对 $\theta$进行点估计（point estimate）。即有：

$P(\tilde c|\tilde x)=P(\tilde c|\tilde x,C,X)=P(\tilde c|\tilde x, \theta_{map}) \tag7$

把问题简化成了求 $\theta$ 的最大后验概率 $P(\theta|C,X)$。

观察(4)式可以发现分母 $P(C|X)$ 是常数，如果我们省略掉它是没有影响的（只需要对分子进行归一化就可以得到后验概率 $P(\theta|C,X)$ ），即省略掉了第二个积分公式，将问题简化成了求 $P(C|X,\theta)·P(\theta)$ 的最大值。如果先验分布在似然函数较大的区间是固定不变或变化较小的，那么问题又可以转化成求最大似然函数。

生成模型

现在考虑生成模型。给定输入 $\tilde{x}$，生成模型可以给出输入和输出的联合分布 $P(\tilde{x},\tilde{c})$，所以生成方法的目标是求出这个联合分布。

优缺点

生成模型

优点

生成给出的是联合分布 $P(\tilde{x},\tilde{c})$，不仅能够由联合分布计算条件分布 $P(\tilde{c}|\tilde{x})$（反之则不行），还可以给出其他信息，比如可以使用 $P(\tilde x)=\sum_{i=1}^kP(\tilde x|\tilde c_i) \ast P(\tilde c_i)$ 来计算边缘分布 $P(\tilde{x})$。如果一个输入样本的边缘分布 $P(\tilde{x})$ 很小的话，那么可以认为学习出的这个模型可能不太适合对这个样本进行分类，分类效果可能会不好，这也是所谓的outlier detection。
生成模型收敛速度比较快，即当样本数量较多时，生成模型能更快地收敛于真实模型。
生成模型能够应付存在隐变量的情况，比如混合高斯模型就是含有隐变量的生成方法。

缺点

天下没有免费午餐，联合分布是能提供更多的信息，但也需要更多的样本和更多计算，尤其是为了更准确估计类别条件分布，需要增加样本的数目，而且类别条件概率的许多信息是我们做分类用不到，因而如果我们只需要做分类任务，就浪费了计算资源。
另外，实践中多数情况下判别模型效果更好。

判别模型

优点

与生成模型缺点对应，首先是节省计算资源，另外，需要的样本数量也少于生成模型。
准确率往往较生成模型高。
由于直接学习 $P(\tilde{c}|\tilde{x})$，而不需要求解类别条件概率，所以允许我们对输入进行抽象（比如降维、构造等），从而能够简化学习问题。

缺点

是没有生成模型的上述优点。

总结

自己认为，区分生成模型和判别模型的关键是有没有利用数据的先验分布。

RexKing6's Note

判别模型与生成模型

简介

设置

判定模型

生成模型

优缺点

生成模型

优点

缺点

判别模型

优点

缺点

总结