Press "Enter" to skip to content

Posts tagged as “西瓜书”

精读西瓜书(第八章-集成学习)-多样性

写在前面 昨天, 我们学习了集成学习中的结合策略; 今天, 我们将继续学习集成学习中的多样性. 误差-分歧分解 欲构建泛化能力强的集成, 个体学习器应'好而不同'. 现在我们来做一个简单的理论分析. 假定我们用个体学习器 通过加权平均法结合产生的集成来完成回归学习任务 . 对示例 , 定义学习器 的'分歧'(Ambiguity)为: 则集成的'分歧'是: 显然, 这里的'分歧'项表征了个体学习器在样本 上的不一致性, 即在一定程度上反映了个体学习器的多样性. 个体学习器 和集成 的平方误差分别为: 令…

精读西瓜书(第八章-集成学习)-结合策略

写在前面 昨天, 我们学习了集成学习中的Bagging与随机森林; 今天, 我们将继续学习集成学习中的结合策略. 结合策略 学习器结合可能会从三个方面带来好处: 首先, 从统计的方面来看, 由于学习任务的假设空间往往很大, 可能有多个假设在训练集上达到同等性能, 此时若使用单学习器可能因误选而导致泛化性能不佳, 结合多个学习器则会减小这一风险; 第二, 从计算的方面来看, 学习算法往往会陷入局部极小点所对应的泛化性能可能很糟糕, 而通过多次运行之后进行结合, 可降低陷入糟糕局部绩效点的风险; 第三, 从表示的方面来看, 某些学习任务的真实假设可能不在当前学习算法所考虑的假设空间中, 此时若使用单学习期则肯定无效, 而通过结合多个学习器, 由于相应的假设空间有所扩大, 有可能学得更好的近似,…

精读西瓜书(第八章-集成学习)-Bagging与随机森林

写在前面 昨天, 我们学习了集成学习中的Boosting; 今天, 我们继续学习集成学习中的Bagging与随机森林. Bagging Bagging是并行式集成学习方法最著名的代表, 从名字即可看出, 它直接基于我们上节介绍过的自助采样法(Boostrap Sampling). 给定包含 个样本的数据集, 我们先随机取出一个样本放入采样集中, 再把改样本放回初始数据集, 使得下次采样时该样本仍有可能被选中, 这样, 经过 次随机采样操作, 我们得到含 个样本的采样集, 初始训练集只能怪有的样本在采样集里多次出现, 有的则从未出现. 照这样, 我们可采样出 个含…

精读西瓜书(第八章-集成学习)-Boosting

写在前面 昨天, 我们学习了集成学习中的个体与集成; 今天, 我们将继续学习集成学习中的Boosting. Boosting Boosting是一族可将弱学习器提升为强学习器的算法. 这族算法的工作机制类似: 先从初始训练集训练出一个基学习器, 再根据基学习器的表现对训练样本分布进行调整, 使得闲钱基学习器做错的训练样本在后续受到更多关注, 然后基于调整后的样本分布来训练下一个基学习器; 如此重复进行, 直至基学习器数目达到实现指定的值 , 最终将这 个基学习器进行加权结合. Boosting族算法最著名的代表是AdaBoost, 其描述如下图, 其中 , 是真实函数: AdaBoost算法有多种推导方式, 比较容易理解的是基于'加性模型'(Additive Model),…

精读西瓜书(第八章-集成学习)-个体与集成

写在前面 昨天, 我们结束了对贝叶斯分类器章节的学习; 今天, 我们将继续学习集成学习中的个体与集成. 个体与集成 集成学习(Ensemble Learning)通过构建并结合多个学习器来完成学习任务, 有时也会被称为多分类器系统(Multi-Classifier System), 基于委员会的学习(Committee-Based Learning)等. 如下图, 显示出集成学习的一般结构: 先产生一组'个体学习器'(Individual Learner), 再用策略将它们结合起来. 个体学习器通常由一个现有的学习算法从训练数据产生, 例如C4.5决策树算法, BP神经网络算法等, 此时集成中值包含同种类型的个体学习器, 例如'决策树集成'中全是决策树, '神经网络集成'中全是神经网络, 这样的集成是'同质'的(Homogeneous). 同质集成中的个体学习器亦称'基学习器'(Base…

精读西瓜书(第七章-贝叶斯分类器)-EM算法

写在前面 昨天, 我们学习了贝叶斯分类器中的贝叶斯网; 今天, 我们将继续学习贝叶斯分类器中的EM算法. EM算法 在前面的讨论中, 我们一直假设训练样本所有属性变量的值都已被观测到, 即训练样本是'完整'的. 但在现实应用中往往会遇到'不完整'的训练样本. 未观测变量的学名是'隐变量'(Latent Variable). 令 表示已观测变量集, 表示隐变量集, 表示模型参数. 若欲对 做极大似然估计, 则应最大化对数似然: 然而由于 是隐变量, 上式无法直接求解. 此时我们可以通过对 计算期望, 来最大化已观测数据的对数'边际似然'(Marginal…

精读西瓜书(第七章-贝叶斯分类器)-贝叶斯网

写在前面 昨天, 我们系统的学习了贝叶斯分类器中的半朴素贝叶斯分类器; 今天, 我们继续学习贝叶斯分类器中的贝叶斯网. 贝叶斯网 贝叶斯网(Bayesian Network)亦称'信念网'(Belief Network), 它借助有向无环图(Directed Acyclic Graph, 简称DAG)来刻画属性之间的依赖关系, 并使用条件概率表(Conditional Probability Table, 简称CPT)来描述属性的联合概率分布. 具体来说, 一个贝叶斯网 由结构 和参数 两部分构成, 即 . 网络结构…

精读西瓜书(第七章-贝叶斯分类器)-半朴素贝叶斯分类器

写在前面 昨天, 我们学习了贝叶斯分类器中的朴素贝叶斯分类器; 今天, 我们继续学习贝叶斯分类器中的半朴素贝叶斯分类器. 半朴素贝叶斯分类器 为了降低贝叶斯公式中估计后延概率 的困难, 朴素贝叶斯分类器采用了属性条件独立性假设, 但在现实任务中这个假设旺旺很难成立. 于是, 人们尝试对属性条件独立性假设进行一定程度的放松, 由此产生了一类称为'半朴素贝叶斯分类器'(Semi-Naive Bayes Classifiers)的学习方法. 半朴素贝叶斯分类器的基本想法是适当考虑一部分属性间的相互依赖信息, 从而不需进行完全联合概率计算, 又不至于彻底忽略了比较强的属性依赖关系. '独依赖估计'(One-Dependent Estimator, 简称ODE)是半朴素贝叶斯分类器最常用的一种策略. 顾名思义, 所谓'独依赖'就是假设每个属性在类别之外最多仅依赖于一个其他属性, 即: 其中…

精读西瓜书(第七章-贝叶斯分类器)-朴素贝叶斯分类器

写在前面 昨天, 我们学习了贝叶斯分类器中的极大似然估计; 今天, 我们将继续学习朴素贝叶斯分类器中的朴素贝叶斯分类器. 朴素贝叶斯分类器 不难发现, 基于贝叶斯公式来估计后验概率 的主要困难在于: 类似条件概率 是所有属性上的联合概率, 难以从有限的训练样本直接估计而得. 为避开这个障碍, 朴素贝叶斯分类器(Naive Bayes Classifier)采用了'属性条件独立假设'(Attribute Conditional Independence Assumption): 对已知类别, 假设所有属性互相独立. 换言之, 假设每个属性独立地对分类结果发生影响. 基于属性条件假设, 得到:…

精读西瓜书(第七章-贝叶斯分类器)-极大似然估计

写在前面 昨天, 我们学习了贝叶斯分类器中的贝叶斯决策论; 今天, 我们接着学习贝叶斯分类器中的极大似然估计. 极大似然估计 估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式, 再基于训练样本对概率分布的参数进行估计. 具体地, 记关于类别 的类条件概率为 , 假设 具有确定的形式并且被参数向量 唯一确定, 则我们的任务就是利用训练集 估计参数 . 为明确期间, 我们将 记为 . 事实上, 概率模型的训练过程就是参数估计(Parameter Estimation)过程.…