写在前面 在这个章节中, 我们将讨论Accuracy(准确率), Precision(精确率), Recall(召回率), F-Score(F分数) 这几个对模型效果评价的指标. 在这章中, 我们将只讨论二元分类的情况. 混淆矩阵 Positive Negative True TP(True Positive) FN(True Negative) False FP(False Positive) TN(False Negative) 我们必须先了解混淆矩阵, 才能继续后面的计算. TP(True…
Hacking Linux
写在前面 在这章内容中, 将重点探讨决策树的表述方式, ID3, 以及如何处理连续属性, 何时停止等问题. 分类与回归 Classification(分类): 将输入的值映射到离散值. Regression(回归): 从某种输入空间映射到某个实际数字. 分类学习 Instance(实例): 输入集, 可以是相片, 评分等数据. Concept(概念): 函数, 将输入映射到输出, 提取实例信息, 将实例映射到某类输出(True|False). Target Concept(目标概念): 实际答案. Hyprhesis(假设):…
写在前面 在这个章节里面, 我们将会更深入的研究决策树. 贪心算法 贪心算法|贪婪算法: 在对问题求解时, 总是做出在当前看来是最好的选择. 也就是说, 不从整体最优上加以考虑, 他所做出的是在某种意义上的局部最优解. 而我们现在所研究的决策树, 也是一种贪心算法. 奥卡姆剃刀 奥卡姆剃刀: 切勿浪费较多东西, 去做'用较少的东西, 同样可以做好的事情'. 简单点说, 便是: be simple. 可线性分离的数据 如下图, 假设我们的朋友Tom喜欢冲浪, 但是冲浪需要满足两个条件,…
写在前面 在这篇文章里面, 我们介绍下决策树的一些基本知识. 举个例子 下表为AppStore中下载软件的用户信息(性别, 年龄)与下载的App名称(PS. 当然, 这些只是我们为了学习伪造的数据.) Gender Age App F 15 PockmonGo F 25 WhatsApp M 32 SnapChat F 40 WhatsApp M 12…
执行, 输出 可以发现, 这里的R2 得分, 比我们之前直接使用cross_validation将数据分开来测试的结果要来的更加精确(详见Cross Validation in sklearn).
执行输出结果
关于信息增益计算 Informatio_Gain = Entropy(parent) - [weighted_average] * Entropy(children) 现有数据集 Grade Bumpiness Speed_Limit? Speed steep bumpy yes slow steep smooth yes slow flat bumpy no fast…
如何计算熵 两种特殊情况 最好的情况: 样本都是同类, 则Entropy值为0 最差的情况: 样本均匀分布在所有类中, 则Entropy值为1 现有数据集 Grade Bumpiness Speed_Limit? Speed steep bumpy yes slow steep smooth yes slow flat bumpy no fast…
➜ test ✗ cat DecisionTree.py from sklearn import tree # 训练集 X = [[0, 0], [1, 1]] Y = [0, 1] # 定义一个DecisionTreeClassifier分类器 clf =…