(1)决策树易于理解和解释 , 可以可视化分析 , 容易提取出规则
(2)可以同时处理分类型和数值型数据
(3)可以处理缺失值
(4)运行速度比较快(使用Gini的快于使用信息熵 , 因为信息熵算法有log)
(1)容易发生过拟合(集成算法如随机森林可以很大程度上减少过拟合)
(2)容易忽略数据集中属性的相互关联;
(3)对于那些各类别样本数量不一致的数据 , 在决策树中 , 进行属性划分时 , 不同的判定准则会带来不同的属性选择倾向 。
写在后面:这个专辑主要是本小白在机器学习算法学习过程中的一些总结笔记和心得 , 如有不对之处还请各位大神多多指正!(关于决策树的剪枝还有很多没有搞懂 , 之后弄明白了会再单独出一篇总结哒)
参考资料链接:
1.
2.
3.
4.
5.
6.
7.
8.
决策树(decisionTree) 决策树(decisionTree)是一种基本的分类和回归方法 。此文仅讨论用于分类方法的决策树 。
决策树的学习通常分为3步:
决策树的学习的思想主要源于
定义决策树 :
分类决策树模型是一种描述对实例进行分类的树形结构 。决策树由结点(node)和有向边(directed edge)组成 。结点又分为内部结点(internal node)和叶结点(leaf node) 。内部结点表示一个特征或属性 , 叶结点表示一个类 。
形如:
其中 , 圆表示内部结点 , 方框表示叶结点 。
if-then规则 , 简单来说就是 :
举例:对于一个苹果 , 外表是红色的是红苹果 , 外表是绿色的是青苹果 。可以表示为:
if-then规则集合具有一个重要的性质:
这就是说每一个实例都被一条路径或规则覆盖 , 并且只被一条路径或规则覆盖 。这里所谓的覆盖是指实例的特征与路径上的特征一致 , 或实例满足规则的条件 。
给定数据集:
其中 , 为输入实例(特征向量) , 含有个特征 , 为类标记 , ,为样本容量 。
目标 :
根据给定的训练数据集构建一个决策树模型 , 使它能够对实例进行正确分类 。
特征选择在于选取对训练数据具有分类能力的特征 , 这样可以提高决策树学习的效率 。
如果我们利用某一个特征进行分类的结果与随机分类的结果没什么很大的差别的话 , 则称这个特征没有分类能力 。
那么问题来了 , 怎么选择特征呢?
通常特征选择的准则是
下面通过例子来说明一下 。
目标 :
希望通过所给的训练集数据 , 学习一个贷款申请的决策树 。当新的客户提出贷款申请的时候 , 根据申请人的特征利用决策树决定是否批准贷款申请 。
可见这里共有4个特征可供选择 。用特征选择的准则是。接下来介绍。
:
熵是表示随机变量不确定性的度量 。
设是一个取有限个值的随机变量 , 其概率分布为
则随机变量的熵定义为
若 , 则定义。通常对数取以2为底 , 或是以为底 , 熵的单位分布为比特(bit)或是纳特(nat) 。
由上式可知 , 熵只依赖的分布 , 而已的值无关 , 则的熵还可记作 , 即
则从定义可知
当随机变量只取2个值的时候 , 例如时 , 的分布为
熵为
熵随概率变化的曲线为
当或时 , 随机变量完全没有不确定性 , 当时 , 熵取值最大 , 随机变量不确定性最大 。
设随机变量 , 其联合概率分布
条件熵表示在已知随机变量的条件下随机变量的不确定性 。随机变量给定条件下随机变量的条件熵(conditional entropy) , 定义为给定条件下的条件概率分布的熵对的数学期望
信息增益
特征对训练集的信息增益
根据信息增益准则的特征选择方法:对训练集 , 计算其每个特征的信息增益 , 并比较大小 , 选择信息增益最大的特征 。
前期定义各个量:
信息增益的算法
输入:训练集和特征;
输出:特征对训练集的信息增益
回看刚才的例子 ,
解 :
这一次我很无聊的想用一下.csv文件类型 。
秒懂生活扩展阅读
- 直通车计划权重连带法原理是什么?怎么操作?
- 淘宝标题优化之架构及原理解析
- 风洞是根据什么科学原理
- 彼得原理什么意思 彼得原理
- 二氧化碳灭火器原理是什么 二氧化碳灭火器原理
- 心脏起搏器的工作原理
- 手刹原理 你知道之间的联系吗
- 汽车静电是怎么产生的原理是什么
- 谁知道电动洗脚盆的加热原理
- 数码管显示的动态扫描原理