数据仓库与数据挖掘--决策树实验.doc

上传人:美****子 文档编号:58023373 上传时间:2022-11-06 格式:DOC 页数:13 大小:771.50KB
返回 下载 相关 举报
数据仓库与数据挖掘--决策树实验.doc_第1页
第1页 / 共13页
数据仓库与数据挖掘--决策树实验.doc_第2页
第2页 / 共13页
点击查看更多>>
资源描述

《数据仓库与数据挖掘--决策树实验.doc》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘--决策树实验.doc(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、实验3 决策树一、实验目的1. 了解决策树的基本概念。2. 掌握决策树挖掘分析的操作步骤。二、 实验内容对 三国志4 武将数据.xls 中的数据进行决策树分析。三、 实验仪、设备计算机、visual studio 2008、分析用数据、数据库服务四、 实验步骤准备工作:三国志4 武将数据.xls 数据导入数据库中。 (1) 打开visual studio 2008,新建项目,选择商业智能项目,analysis services项目图1 新建项目(2) 在解决方案资源管理器中,右键单击数据源,选择新建数据源图2 数据源向导(3) 在该界面中选择新建,进行数据源具体设置图3 新建数据源(4) 在服

2、务器名中填写要连接的数据库服务器名称,或者单击服务器名右方下拉按钮进行选择;勾选使用windows身份验证 ;选择或输入一个数据库名中填写将要分析数据所在的数据库或者单击右方下拉按钮进行选择图4 数据源具体设置(5) 确定后配置完的数据源已显示在窗口上,继续下一步图5 完成数据源具体设置(6) 勾选使用服务账户,继续下一步图6 模拟信息设置(7) 数据源名称保持默认,完成图7 完成数据源设置向导(8) 在解决方案资源管理器中,右键单击数据源视图,选择新建数据源视图图8 数据源视图向导(9) 下一步图9 选择数据源(10) 在可用对象中,将要分析数据所在表添加到包含的对象中,继续下一步图11 选

3、择包含对象(11) 默认名称,完成图12 完成数据源视图向导(12) 在解决方案资源管理器中,右键单击挖掘结构,选择新建挖掘结构图13 数据挖掘向导(13) 勾选从现有关系数据库或数据仓库,继续下一步图14 选择定义方法(14) 选择microsoft 决策树,继续下一步图15 创建数据挖掘模型结构(15) 下一步图16 选择数据源视图(16) 勾选事例,继续下一步图17 指定表类型(17) 在键列勾选序号码,在输入列勾选出身、国别、魅力、统御、武力、政治、智慧、忠诚,在可预测列勾选身份,继续下一步图18 指定定型数据(18) 下一步图19 指定内容和数据类型(19) 勾选允许钻取,完成图21

4、 完成数据挖掘向导(20) 单击挖掘模型查看器图22 完成设置(21) 询问是否部署项目,是图23 部署项目(22) 询问是否继续,是图24 处理模型(23) 单击运行图25 运行挖掘项目(24) 待处理完成后,关闭图26 处理结果(25) 关闭处理窗口后,就可在挖掘模型查看器的决策树中看到系统经过分析得出的结果图27 分类关系图依赖关系网络:图27 分类剖面图(26) 在挖掘模型中,右键单击挖掘模型可以设置算法参数图28 算法参数(27) 算法参数的意义COMPLEXITY_PENALTY:禁止决策树生长。减少此值会增加拆解的可能性,而增加此值则会减少拆解的可能性。FORCE_REGRESS

5、OR:强制算法使用的数据行作为回归公式的回归输入变量,而不考虑其在算法计算中的重要性为何。MAXIMUM_INPUT_ATTRIBUTES:指定在叫用功能选项之前,算法可以处理输入属性的最大数目。MAXIMUM_OUTPUT_ATTRIBUTES:指定在叫用功能选项之前,算法可以处理输出属性的最大数目。MINIMUM_SUPPORT:指定分叶节点必须包含的最小个例数目SCORE_METHOD:指定用来计算分割准则的方法。SPLIT_METHOD:指定用来节点分杈的模式。图29 设置算法参数(28) 设定完算法后,再次点击挖掘模型查看器进行数据处理,处理完成后所得出的结果就是设置算法后的结果。五

6、、 实验心得体会通过这次关于决策树的实验,让我对决策树的应用有了相对具体的理解,并且为决策树的学习提供了一个好的铺垫,在学习过程中,决策树中的算法由于利用系统本身,所以并没有具体理解ID3这个算法的具体运转环节,但是有了这次实验的铺垫,使自己能够更加容易之后的ID3算法的学习。六、 思考题决策树对数据分类的正确率是否可以达到100%?答:不可以达到100%决策树一般都是自上而下来生成的。决策树由一个决策图和可能的结果(包括资源成本和风险)组成,用来创建到达目标的规划。每个决策或事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,所以称作决策树。对于那些各类别样本数量不一致的数据,在决策树当中信息增益的结果偏向于那些具有更多数值的特征。决策树的这种明确性可能带来误导。决策树分类准确率极限理论:定理1:有经验风险和结构风险时,决策树分类准确率的极限不存在。定理2:无经验风险、有结构风险时,决策树分类准确率的极限不存在。定理3:有经验风险、无结构风险时,决策树分类准确率的极限存在。定理4:无经验风险和结构风险时,决策树分类准确率的极限存在。以上定理都认可100%是决策树分类准确率的上边界,0%是其下边界;“不存在”的意义并不是无确定上边界,而是在0%,100%内五确定上边界;“存在”的意义是有确定上边界,当然这个上边界不超过100%

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 文案大全

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁