《机器学习(MATLAB版)-习题及答案ch03.docx》由会员分享,可在线阅读,更多相关《机器学习(MATLAB版)-习题及答案ch03.docx(2页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章决策树一、决策树的结点类型(1)决策结点在这类结点处需要进行条件判断以确定进入哪个分支。决策结点一定至少 有两个子结点。(2)叶结点表示最终的决策结果,这类结点不再有子结点。在上面的例子中,叶结点的 取值为“可以贷款”和“不能贷款”两种。一般来说,对于分类问题,叶结点的取值为类别 标签。决策树包括分类树和回归树,分别用以解决分类问题和回归问题。分类树的映射函数是 多维空间中的分段线性函数,即用平行于各坐标轴的超平面对空间进行分割;回归树的映射 函数则是分段常函数。由于决策树的映射函数是分段函数,因此决策树具有非线性建模的能 力。对于回归问题,只要划分得足够细,分段常函数可以逼近闭区间上任
2、意函数到任意指定 的精度。也就是说,回归树在理论上可以对任意复杂的数据进行拟合。而对于分类问题,如 果决策树层次足够深,便可以将训练样本集中的所有样本正确分类。但如果属性向量的维数 过大,可能会因为面临“维数灾难”而导致准确率下降。二 决策树算法的优缺点(1)优点:算法能够直接体现数据的特点,易于理解和实现,用户在学习过程中无须 了解过多背景知识即可理解决策树所表达的意义。计算量相对较小,运算速度快,且容易转化成分类规则。只要从根结点一直向下走到某 个叶结点,沿途分割条件是唯一确定的。(2)缺点:决策树算法的缺点主要是在处理大容量样本集时,容易出现过拟合现象, 从而降低分类或回归的准确性。三、
3、ID3算法的基本框架ID3算法的核心思想是以信息增益为依据,采用自顶向下的贪心策略遍历可能的决策树 空间,以选择出划分后信息增益最大的属性。其基本框架如下:(1)使用统计测试来确定每个样例属性单独分类样本的能力(即计算每个属性的信息 增益),选择分类能力最好(即信息增益最大)的属性作为树的根结点。(2)为根结点属性的每一个可能取值产生一个分支,把训练样本分配到适当的分支之 下。重复该过程,用每个分支结点关联的训练样本选取在该点的被测试的最优属性,从而形 成对决策树的贪心搜索。四、基于ID3算法,C4. 5算法的改进(1)用信息增益率来选择最优属性,克服了用信息增益选择属性时的不足。(2)在决策
4、树的构建过程中进行剪枝。(3)能够完成对连续与缺失值的处理。C4.5算法的优点是产生的分类规则易于理解,准确率高;不足之处是在决策树的构建 过程中,需要对数据集进行多次顺序扫描和排序,从而导致算法效率低。五 分类树与回归树的区别(1)分类树与回归树的区别在于样本输出,如果输出是离散值,则是分类树;如果输出是 连续值,则是回归树。分类树的输出是样本的类别,回归树的输出是一个实数。(2)连续值的处理方法不同。(3)决策树建立后做预测的方式不同:分类模型采用基尼指数的大小度量属性各个划分点 的优劣;回归模型则采用“误差平方和”度量,度量目标是对于划分属性A,对应划分点s两边 的数据集和D2,使和D2各自集合的误差平方和最小,同时和2的误差之和最小。表达 式为:min ( min V(独一 Mi)2 + min (班一附,)A,s Mi、M2、/其中,UI.U2,所分别为力和的样本输出均值。对于决策树建立后做预测的方式CART分类树采用叶结点里概率最大的类别作为当前结点 的预测类别;而CART回归树输出的不是类别,采用叶结点的均值或者中位数来预测输出结果。