以多分类为例
贝叶斯判定准则
为最小化总体风险,只需在每个样本上选择能使条件风险 $R(c \mid x)$ 最小的类别标记,即为: $h^*(x)=argmin_{c \in y}R(c \mid x)=argmax_{c \in y}P(c \mid x)$,
此时,$h^*$ 为贝叶斯最优分类器。 条件风险:
$R(c_i \mid x)=\sum_{j=1}^N \lambda_{ij}P(c_j \mid x)=1-P(c_i \mid x)$,
$\lambda_{ij}$ 是将一个真实标记为 $c_j$ 的样本误分类为 $c_i$ 所产生的损失。
多元正态分布的MLE
概率模型的训练过程就是参数估计过程。
-
频率主义学派:参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值
-
贝叶斯学派:参数是为观察到的随机变量,其本身也可以有分布,因此,可假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。
MLE源自频率主义学派。
$P(D_c \mid \theta_c)=\prod_{x \in D_c}P(x \mid \theta_c)$
其中 $D_c$ 表示训练集D中第c类样本组成的集合。
推导:
$LL(\theta_c)$
$=logP(D_c \mid \theta_c)$
$=\sum_{x \in D_c}logP(x \mid \theta_c)$
多元正态分布的概率密度函数:
由于 $P(x \mid \theta_c)=P(x \mid c) -N(\mu_c,\sigma_c^2)$, 那么
$P(x \mid \theta_c)=\frac{1}{\sqrt{(2\pi)^d\mid\sum_c\mid}}exp(-\frac{1}{2}(x-\mu_c)^T\sum_c^{-1}(x-\mu_c))$
其中d表示xde维数,$\sum_c=\sigma_c^2$ 为对称正定协方差矩阵,$\mid\sum_c\mid$ 表示行列式,将上式代入对数似然函数可得
$LL(\theta_c)=\sum_{x \in D_c}ln[\frac{1}{\sqrt{(2\pi)^d\mid\sum_c\mid}}exp(-\frac{1}{2}(x-\mu_c)^T\sum_c^{-1}(x-\mu_c))]$
$=\sum_{i=1}^Nln[\frac{1}{\sqrt{(2\pi)^d\mid\sum_c\mid}}exp(-\frac{1}{2}(x_i-\mu_c)^T\sum_c^{-1}(x_i-\mu_c))]$
$=\sum_{i=1}^N{ln\frac{1}{\sqrt{(2\pi)^d}}+ln\frac{1}{\sqrt{\mid \sum_c \mid}}+ln[exp(-\frac{1}{2}(x_i-\mu_c)^T\sum_c^{-1}(x_i-\mu_c))]}$
$=-\frac{Nd}{2}ln(2\pi)-\frac{N}{2}ln\mid \sum_c\mid-\frac{1}{2}\sum_{i=1}^N(x_i-\mu_c)^T\sum_c^{-1}(x_i-\mu_c))$
由于参数 $\theta_c$ 的极大似然估计 $\hat{\theta_c}$ 为 $\hat{\theta_c}=argmax_{\theta_c}LL(\theta_c)$,
对 $LL(\theta_c)$ 关于 $\mu_c$ 求偏导:
$\frac{\partial LL(\theta_c)}{\partial \mu_c}=-\frac{1}{2}\sum_{i=1}^{N}\frac{\partial (x_i^T-\mu_c^T)\sum_c^{-1}(x_i-\mu_c)}{\partial \mu_c}$
$=-\frac{1}{2}\sum_{i=1}^{N}\frac{\partial [x_i^T\sum_c^{-1}x_i-x_i^T\sum_c^{-1}\mu_c-\mu_c^T\sum_c^{-1}x_i+\mu_c^T\sum_c^{-1}\mu_c]}{\partial \mu_c}$
由于 $x_i^T\sum_c^{-1}\mu_c=(x_i^T\sum_c^{-1}\mu_c)^T=\mu_c^T(\sum_c^T)^{-1}x_i=\mu_c^T\sum_c^{-1}x_i$
$=-\frac{1}{2}\sum_{i=1}^{N}\frac{\partial [x_i^T\sum_c^{-1}x_i-2x_i^T\sum_c^{-1}\mu_c+\mu_c^T\sum_c^{-1}\mu_c]}{\partial \mu_c}$
$=-\frac{1}{2}\sum_{i=1}^{N}[0-(2x_i^T\sum_c^{-1})^T+(\sum_c^{-1}+(\sum_c^{-1})^T)\mu_c]$
$=-\frac{1}{2}\sum_{i=1}^{N}[-(2\sum_c^{-1}x_i)+2\sum_c^{-1}\mu_c]$
$=\sum_{i=1}^{N}\Sigma_c^{-1}x_i-N\Sigma_c^{-1}\mu_c$
$=0$
$\hat{\mu_c}=\frac{\sum_{i=1}^Nx_i}{N}$
对 $LL(\theta_c)$ 关于 $\Sigma_c$ 求偏导:
评估
这种参数化的方法虽然能使类条件概率估计变得相对简单,但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。
朴素贝叶斯分类器
$h^*(x)=argmax P(c \mid x)=argmax \frac{P(c)P(x \mid c)}{P(x)}=argmaxP(c)P(x \mid c)$ ++++++属性条件独立性假设
属性条件独立性假设定义:$P(x \mid c)=P(x_1,x_2,...,x_d \mid c)=\prod_{i=1}^{d}P(x_i \mid c)$ -----(牺牲准确度换取计算效率)
naive bayes
$h^*(x)=argmaxP(c)\prod_{i=1}^dP(x_i \mid c)$
先验概率 $P(c)$
$P(c)=\frac{\mid D_c \mid}{\mid D \mid}$
似然概率 $P(x_i \mid c)$
连续值
离散值
Laplacian correction
拉普拉斯修正避免了因训练集样本不充足而导致概率估值为0的问题,当训练集样本增大,这个误差会被忽略。
EM算法
EM算法的引入
为什么需要EM?
训练样本含有隐变量Z
EM算法的例子
《统计学习方法》-三硬币模型 9.1
迭代求解参数,近似极大化
EM算法的导出
Jensen 不等式
可以将a看作概率,则f表示为期望
Jensen不等式在概率论中的应用: $\varphi(E[X]) \leq E[\varphi(X)]$
推导
EM算法求解例子
用EM求解三硬币
- E:求Q
- M:寻找参数最大化期望