写在前面
- 昨天, 我们学习了集成学习中的结合策略; 今天, 我们将继续学习集成学习中的多样性.
误差-分歧分解
- 欲构建泛化能力强的集成, 个体学习器应'好而不同'. 现在我们来做一个简单的理论分析. 假定我们用个体学习器
通过加权平均法结合产生的集成来完成回归学习任务
. 对示例
, 定义学习器
的'分歧'(Ambiguity)为:
![](https://i0.wp.com/hacking-linux.com/wp-content/uploads/2018/09/105.png?ssl=1)
- 则集成的'分歧'是:
![](https://i0.wp.com/hacking-linux.com/wp-content/uploads/2018/09/106.png?ssl=1)
- 显然, 这里的'分歧'项表征了个体学习器在样本
上的不一致性, 即在一定程度上反映了个体学习器的多样性. 个体学习器
和集成
的平方误差分别为:
![](https://i0.wp.com/hacking-linux.com/wp-content/uploads/2018/09/107.png?ssl=1)
- 令
表示个体学习器误差的加权均值, 有:
![](https://i0.wp.com/hacking-linux.com/wp-content/uploads/2018/09/108.png?ssl=1)
- 令
表示样本的概率密度, 则在全样本上有:
![](https://i0.wp.com/hacking-linux.com/wp-content/uploads/2018/09/109.png?ssl=1)
- 类似的, 个体学习器
在全样本上的泛化误差和分歧项分别为:
![](https://i0.wp.com/hacking-linux.com/wp-content/uploads/2018/09/110.png?ssl=1)
- 集成的泛化误差为:
![](https://i0.wp.com/hacking-linux.com/wp-content/uploads/2018/09/111.png?ssl=1)
- 最后有:
![](https://i0.wp.com/hacking-linux.com/wp-content/uploads/2018/09/112.png?ssl=1)
写在后面
- 今天, 我们将继续学习了集成学习中的多样性; 明天, 我们将学习下一个章节, 聚类中的聚类任务.
Be First to Comment