精读西瓜书(第七章-贝叶斯分类器)-极大似然估计

写在前面

  • 昨天, 我们学习了贝叶斯分类器中的贝叶斯决策论; 今天, 我们接着学习贝叶斯分类器中的极大似然估计.

极大似然估计

  • 估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式, 再基于训练样本对概率分布的参数进行估计. 具体地, 记关于类别 \(c\) 的类条件概率为 \(P(x|c)\) , 假设 \(P(x|c)\) 具有确定的形式并且被参数向量 \(\theta_{c}\) 唯一确定, 则我们的任务就是利用训练集 \(D\) 估计参数 \(\theta_{c}\) . 为明确期间, 我们将 \(P(x|c)\) 记为 \(P(x|\theta_{c})\) .
  • 事实上, 概率模型的训练过程就是参数估计(Parameter Estimation)过程. 对于参数估计, 统计学界的两个学派分别提供了不同的解决方案: 频率主义学派(Frequentist)人为参数虽然未知, 但却是客观存在的固定值, 因此, 可通过优化似然函数等准则来确定参数值; 贝叶斯学派(Bayesian)则认为参数是未观察到的随机变量, 其本身也可有分布, 因此, 可假定参数服从一个先验分布, 然后基于观测到的数据来计算参数的后验分布. 本节介绍源自频率主义学派的极大似然估计(Maximum Likelihood Estimation, 简称MLE), 这是根据数据采样来估计概率分布参数的经典方法.
  • 令 \(D_{c}\) 表示训练集 \(D\) 中第 \(c\) 类样本组合的集合, 假设这些样本是独立同分布的, 则参数 \(\theta_{c}\) 对于数据集 \(D_{c}\) 的似然是:

  • 对 \(\theta_{c}\) 进行极大似然估计, 就是去寻找最大化似然 \(P(D_{c}|\theta_{c})\) 的参数值 \(\hat{\theta}{c}\) . 直观上看, 极大似然估计是在试图在 \(\theta{c}\) 所有可能的取值中, 找到一个能使数据出现的’可能性’最大值. 上式中的连乘操作易造成下溢, 通常使用对数似然(Log-Likelihood):

  • 此时参数 \(\theta_{c}\) 的极大似然估计 \(\theta_{c}\) 为:

  • 例如, 在连续属性情形下, 假设概率密度函数 \(p(x|c) \sim N(\mu_{c}, \sigma^{2}{c})\) , 则参数 \(\mu{c}\) 和 \(\sigma^{2}_{c}\) 的极大似然估计为:

  • 也就是说, 通过极大似然法得到的正太分布均值就是样本均值, 方差就是 \((x - \hat{\mu}{c})(x - \hat{\mu}{c})^{T}\) 的均值, 这显然是一个符合直觉的结果. 在离散属性情形下, 也可通过类似的方法估计类条件概率.
  • 需注意的是, 这种参数化的方法虽能使类条件概率估计变得相对简单, 但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布. 在现实应用中, 欲做出能较好地接近潜在真实分布的假设, 往往需在一定程度上利用关于应用任务本身的经验知识, 否则若仅凭’猜测’来假设概率分布形式, 很可能产生误导性的结果.

写在后面

  • 今天, 我们学习了贝叶斯分类器中的极大似然估计; 明天, 我们将继续学习贝叶斯分类器中的朴素贝叶斯分类器.