Decision Tree (三)

在这章内容中, 将重点探讨决策树的表述方式, ID3, 以及如何处理连续属性, 何时停止等问题.

Classification(分类): 将输入的值映射到离散值.
Regression(回归): 从某种输入空间映射到某个实际数字.

如图, 决策树可以通过两个节点表述A AND B的计算过程与结果.

如图, 决策树可以通过两个节点表述A OR B的计算过程与结果.

如图, 决策树可以通过两个节点表述A XOR B的计算过程与结果.

Restriction Bias(限定偏差): Hyprhesis(假设)集合, 决策树以及它可以表述的内容, 而不会去考虑一元二次函数以及无穷函数等, 只考虑决策树中所给出的离散变量所表示的可能情况.
Reference Bias(优选偏差): 它会告诉我们首选的假设集合的来源.
归纳偏差: ID3算法的归纳偏差来自它的搜索策略, 该策略假定某种假设胜于其它假设, 较短的假设比较长的假设要更优, 因此称这种归纳偏差为优选偏差或搜索偏差. 相反, 候选消除算法的偏差是对待考虑假设的一种限定, 这种形式的偏差通常称为限定偏差或语言偏差. 通常, 优选偏置比限定偏置更符合需要. 因为它保证了位置的目标函数被包含在学习器工作的假设空间中(要不然很可能白忙活一场). 但在实际中, 综合使用两者的学习系统是很常见的(例如使用最小均方差(优选偏置)的以线性函数(限定偏置)来表示评估函数的问题).

使用决策树处理决策属性时, 可以采用范围判断的方式.(注意有效的范围选取)
例如: 年龄可以分为>=20|<20两部分, 这样就可以对一些连续的数值进行处理, 例如输入18.5, 则被归类到<20这部分.

到这里, 对决策树的概念及算法已经有了大致的认识. 接下来还会陆续更新一些细节相关的内容.

Be First to Comment