写在前面 在这章内容中, 将重点探讨决策树的表述方式, ID3, 以及如何处理连续属性, 何时停止等问题. 分类与回归 Classification(分类): 将输入的值映射到离散值. Regression(回归): 从某种输入空间映射到某个实际数字. 分类学习 Instance(实例): 输入集, 可以是相片, 评分等数据. Concept(概念): 函数, 将输入映射到输出, 提取实例信息, 将实例映射到某类输出(True|False). Target Concept(目标概念): 实际答案. Hyprhesis(假设):…
Posts tagged as “DecisionTree”
写在前面 在这个章节里面, 我们将会更深入的研究决策树. 贪心算法 贪心算法|贪婪算法: 在对问题求解时, 总是做出在当前看来是最好的选择. 也就是说, 不从整体最优上加以考虑, 他所做出的是在某种意义上的局部最优解. 而我们现在所研究的决策树, 也是一种贪心算法. 奥卡姆剃刀 奥卡姆剃刀: 切勿浪费较多东西, 去做'用较少的东西, 同样可以做好的事情'. 简单点说, 便是: be simple. 可线性分离的数据 如下图, 假设我们的朋友Tom喜欢冲浪, 但是冲浪需要满足两个条件,…
写在前面 在这篇文章里面, 我们介绍下决策树的一些基本知识. 举个例子 下表为AppStore中下载软件的用户信息(性别, 年龄)与下载的App名称(PS. 当然, 这些只是我们为了学习伪造的数据.) Gender Age App F 15 PockmonGo F 25 WhatsApp M 32 SnapChat F 40 WhatsApp M 12…
关于信息增益计算 Informatio_Gain = Entropy(parent) - [weighted_average] * Entropy(children) 现有数据集 Grade Bumpiness Speed_Limit? Speed steep bumpy yes slow steep smooth yes slow flat bumpy no fast…
如何计算熵 两种特殊情况 最好的情况: 样本都是同类, 则Entropy值为0 最差的情况: 样本均匀分布在所有类中, 则Entropy值为1 现有数据集 Grade Bumpiness Speed_Limit? Speed steep bumpy yes slow steep smooth yes slow flat bumpy no fast…
➜ test ✗ cat DecisionTree.py from sklearn import tree # 训练集 X = [[0, 0], [1, 1]] Y = [0, 1] # 定义一个DecisionTreeClassifier分类器 clf =…