Press "Enter" to skip to content

Posts tagged as “Python”

MinMaxScaler in sklearn

By kyle on April 3, 2018

sklearn中的特征缩放执行结果:

Decision Tree (三)

By kyle on March 29, 2018

写在前面在这章内容中, 将重点探讨决策树的表述方式, ID3, 以及如何处理连续属性, 何时停止等问题. 分类与回归 Classification(分类): 将输入的值映射到离散值. Regression(回归): 从某种输入空间映射到某个实际数字. 分类学习 Instance(实例): 输入集, 可以是相片, 评分等数据. Concept(概念): 函数, 将输入映射到输出, 提取实例信息, 将实例映射到某类输出(True|False). Target Concept(目标概念): 实际答案. Hyprhesis(假设):…

Decision Tree (二)

By kyle on March 28, 2018

写在前面在这个章节里面, 我们将会更深入的研究决策树. 贪心算法贪心算法|贪婪算法: 在对问题求解时, 总是做出在当前看来是最好的选择. 也就是说, 不从整体最优上加以考虑, 他所做出的是在某种意义上的局部最优解. 而我们现在所研究的决策树, 也是一种贪心算法. 奥卡姆剃刀奥卡姆剃刀: 切勿浪费较多东西, 去做'用较少的东西, 同样可以做好的事情'. 简单点说, 便是: be simple. 可线性分离的数据如下图, 假设我们的朋友Tom喜欢冲浪, 但是冲浪需要满足两个条件,…

Decision Tree (一)

By kyle on March 28, 2018

写在前面在这篇文章里面, 我们介绍下决策树的一些基本知识. 举个例子下表为AppStore中下载软件的用户信息(性别, 年龄)与下载的App名称(PS. 当然, 这些只是我们为了学习伪造的数据.) Gender Age App F 15 PockmonGo F 25 WhatsApp M 32 SnapChat F 40 WhatsApp M 12…

Grid Search in sklearn

By kyle on March 23, 2018

执行, 输出可以发现, 这里的R2 得分, 比我们之前直接使用cross_validation将数据分开来测试的结果要来的更加精确(详见Cross Validation in sklearn).

Cross Validation in sklearn

By kyle on March 23, 2018

执行输出结果

LinearRegression in sklearn

By kyle on March 21, 2018

Information Gain

By kyle on March 20, 2018

关于信息增益计算 Informatio_Gain = Entropy(parent) - [weighted_average] * Entropy(children) 现有数据集 Grade Bumpiness Speed_Limit? Speed steep bumpy yes slow steep smooth yes slow flat bumpy no fast…

Entropy

By kyle on March 19, 2018

如何计算熵两种特殊情况最好的情况: 样本都是同类, 则Entropy值为0 最差的情况: 样本均匀分布在所有类中, 则Entropy值为1 现有数据集 Grade Bumpiness Speed_Limit? Speed steep bumpy yes slow steep smooth yes slow flat bumpy no fast…

DecisionTree Classifier

By kyle on March 19, 2018

➜ test ✗ cat DecisionTree.py from sklearn import tree # 训练集 X = [[0, 0], [1, 1]] Y = [0, 1] # 定义一个DecisionTreeClassifier分类器 clf =…