写在前面 昨天, 我们学习了贝叶斯分类器中的朴素贝叶斯分类器; 今天, 我们继续学习贝叶斯分类器中的半朴素贝叶斯分类器. 半朴素贝叶斯分类器 为了降低贝叶斯公式中估计后延概率 的困难, 朴素贝叶斯分类器采用了属性条件独立性假设, 但在现实任务中这个假设旺旺很难成立. 于是, 人们尝试对属性条件独立性假设进行一定程度的放松, 由此产生了一类称为'半朴素贝叶斯分类器'(Semi-Naive Bayes Classifiers)的学习方法. 半朴素贝叶斯分类器的基本想法是适当考虑一部分属性间的相互依赖信息, 从而不需进行完全联合概率计算, 又不至于彻底忽略了比较强的属性依赖关系. '独依赖估计'(One-Dependent Estimator, 简称ODE)是半朴素贝叶斯分类器最常用的一种策略. 顾名思义, 所谓'独依赖'就是假设每个属性在类别之外最多仅依赖于一个其他属性, 即: 其中…
Posts tagged as “Math”
写在前面 昨天, 我们学习了贝叶斯分类器中的极大似然估计; 今天, 我们将继续学习朴素贝叶斯分类器中的朴素贝叶斯分类器. 朴素贝叶斯分类器 不难发现, 基于贝叶斯公式来估计后验概率 的主要困难在于: 类似条件概率 是所有属性上的联合概率, 难以从有限的训练样本直接估计而得. 为避开这个障碍, 朴素贝叶斯分类器(Naive Bayes Classifier)采用了'属性条件独立假设'(Attribute Conditional Independence Assumption): 对已知类别, 假设所有属性互相独立. 换言之, 假设每个属性独立地对分类结果发生影响. 基于属性条件假设, 得到:…
写在前面 昨天, 我们学习了贝叶斯分类器中的贝叶斯决策论; 今天, 我们接着学习贝叶斯分类器中的极大似然估计. 极大似然估计 估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式, 再基于训练样本对概率分布的参数进行估计. 具体地, 记关于类别 的类条件概率为 , 假设 具有确定的形式并且被参数向量 唯一确定, 则我们的任务就是利用训练集 估计参数 . 为明确期间, 我们将 记为 . 事实上, 概率模型的训练过程就是参数估计(Parameter Estimation)过程.…
写在前面 前几天, 我们系统的学习了SVM相关的一些知识, 今天我们将开启一个新的章节贝叶斯分类器, 我们先来看看第一个小节中的内容, 贝叶斯决策论. 贝叶斯决策论 贝叶斯决策轮(Bayesian Decision Theory)是概率框架下实施决策的基本方法. 对分类任务来说, 在所有行管概率都已知的理想情形下, 贝叶斯决策轮考虑如何基于这些概率和误判损失来选择最优的类别标记. 我们以多分类任务为例来解释其基本原理. 假设有 种可能的类别标记, 即 , 是一个将真实标记为 的样本误分类为 所产生的损失. 基于后验概率 可获得将样本 分类为 所产生的期望损失(Expected…
写在前面 昨天, 我们学习了SVM中的软间隔与正则化; 今天, 我们继续学习SVM中的支持向量回归. 支持向量回归 现在我们来考虑回归问题. 给定训练样本 , , 希望学得一个回归模型, 使得 与 尽可能接近, 和 是待确定的模型参数. 对样本 , 传统回归模型通常直接基于模型输出 与真实输出 之间的差别来计算损失, 当且仅当 与 完全相同时, 损失才为零.…
写在前面 昨天, 我们学习了SVM中的支持向量回归. 今天, 我们继续学习SVM中的核方法. 核方法 回顾前面两天的内容, 可以发现, 给定训练样本 , 若不考虑偏移项 , 则无论SVM还是SVR, 学得的模型总能表示成核函数 的线性组合. 不仅如此, 事实上我们有下面这个称为'表示定理'(Representer Theorem)的更一般的结论: [定理]: 令 为核函数 对应的再生核希尔伯特空间, 表示 空间中关于 的函数,…
写在前面 昨天, 我们学习了, SVM中的核函数; 今天, 我们将接下去学习SVM中的软间隔与正则化. 软间隔与正则化 在前面的讨论中, 我们一直假定训练样本在样本空间或特征空间中是线性可分的, 即存在一个超平面能将不同类的样本完全划分开. 然而, 在现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分; 退一步说, 即便恰好找到了某个核函数使训练集在特征空间中线性可分, 也很难断定这个貌似线性可分的结果不是由于过拟合所造成的. 缓解该问题的一个办法是允许支持向量机在一些样本上出错. 为此, 要引入'软间隔'(Soft Margin)的概念, 如下图: 具体来说, 前面介绍的支持向量机形式是要求所有样本均满足约束, 即所有样本都必须划分正确, 这称为'硬间隔'(Hard Margin),…
写在前面 昨天, 我们学习了SVM中的对偶问题. 今天, 我们继续学习SVM中的核函数部分知识. 核函数 在讨论开始前, 我们假设训练样本是线性可分的, 即存在一个划分超平面能将训练样本正确分类. 然而在现实任务中, 原始样本空间内也许并不存在一个能正确划分两类样本的超平面. 对这样的问题, 可将样本从原始空间映射到一个更高纬的特征空间, 使得样本在这个特征空间内线性可分. 如上图, 若将原始的二维空间映射到一个合适的三维空间, 就能找到一个合适的划分超平面. 幸运的是, 如果原始空间是有限维, 即属性数有限, 那么一定存在一个高维特征空间使样本可分. 令 表示将 映射后的特征向量, 于是,…
写在前面 昨天, 我们对SVM进行了大致的介绍, 相信大家对支持向量机都有了个大致的了解, 今天我们将继续学习对偶问题. 对偶问题 我们希望求得大间隔划分超平面所对应的模型: 其中, 和 是模型参数. 注意到其本身是一个凸二次规划(Convex Quadratic Programming)问题, 能直接用现成的优化计算包求解, 但我们可以有更高效的办法. 使用拉格朗日乘子法可得到其'对偶问题'(Dual Problem). 具体来说, 就是对每条约束添加拉格朗日乘子 , 则该问题的拉格朗日函数可写为: 其中 . 令 对…
写在前面 在大致了解神经网络了之后, 我们今天来学习下支持向量机相关的知识. 间隔与支持向量 给定训练样本集 , , 分类学习最基本的想法就是基于训练集 在样本空间中找到一个划分超平面, 将不同类别的样本分开. 但能将训练样本分开的划分超平面可能有很多, 如下图: 直观上看, 应该去找位于两类训练样本'正中间'的划分超平面, 因为该划分超平面对训练样本局部扰动的'容忍'性最好. 例如, 由于训练集的局限性或噪声的因素, 训练集外的样本可能比上图中的训练样本更接近两个类的分隔界, 这将是许多划分超平面出现错误, 二红色的超平面受影响最小. 换言之, 这个划分超平面所产生的分类结果是最鲁棒的, 对未见实例的泛化能力最强. 在样本空间中, 划分超平面可通过如下线性方程来描述:…