《大数据解析与应用导论 (34).pdf》由会员分享,可在线阅读,更多相关《大数据解析与应用导论 (34).pdf(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1大数据解析与应用导论大数据解析与应用导论Introduction to Big Data Analytics and ApplicationThe linked image cannot be displayed.The file may have been moved,renamed,or deleted.Verify that the link points to the correct file and location.第六章决策树基本内容基本内容1.决策树算法决策树算法2.实例应用实例应用4.随机森林随机森林3.(一)智能体的决策过程(一)智能体的决策过程小玉和小泉同学为了准备羽毛
2、球赛,最近打算练习一下,但并不是每天都适合打球。通常,需要考虑一些因素:如果有场地,就在室内打;没有场地,就要考虑户外天气情况。日期场地温度天气风速打球1号室内炎热下雨大是2号室内适中晴小是3号室内适中下雨小否4号室外炎热阴大否5号室外适中晴小是【表1:各种情况与打球关系表】实际上,这是一个典型的智能决策智能决策问题:对于一个智能决策系统,它有三个重要组成部分:特征特征+算法算法+决策决策(一)智能体的决策过程(一)智能体的决策过程场地气温天气风速特征特征场地室内室外气温炎热打球不打球适中天气下雨不打球晴天打球算法算法决策决策(二)什么是决策树(二)什么是决策树决策树,又称为判定树,是数据挖掘
3、技术中的一种重要分类方法,它是一种以树结构树结构来表达的预测分析模型。根节点非叶子节点(代表测试的条件,对数据属性的测试)分支(代表测试的结果)叶节点(代表分类后所获得的分类标记)(三)决策树的背景(三)决策树的背景生活中很多地方都需要分类,各种分类技术的诞生为我们节省了大量的时间,决策树作为分类技术的一种,在零售、电子商务、金融、医疗卫生等方面有着广泛的运用。1、决策树构造的分类器容易理解;2、决策树算法的运算速度要快于其他分类方法;3、决策树分类方法得到的结果的准确率要优于其他算法。决策树方法是一种比较通用的分类函数逼近法,它是一种常用于预测模型的算法,通过将大量数据有目的分类,找到一些有
4、潜在价值的信息。(三)决策树的应用(三)决策树的应用决策树银行保险医疗电信零售信用卡欺诈,信用评估保险公司偿付能力分析客户细分,交叉销售疾病因素分析客户消费特征行为分析(四)决策树的结构(四)决策树的结构构建决策树两大要点:构建决策树两大要点:特征属性形式特征属性形式有些标签是离散的(天气只有阴晴雨雪);有些标签是离散的(天气只有阴晴雨雪);有些标签是连续的(温度湿度)有些标签是连续的(温度湿度)特征属性序列特征属性序列为什么根节点要选择场地变量?为什么根节点要选择场地变量?场地室内室外气温炎热打球不打球适中天气下雨不打球晴天(五)熵和信息熵(五)熵和信息熵熵在化学中是表示分子的混乱程度,分子越混乱,它的熵就越大,而若分子越有序,熵值就越小。信息熵也是一样的,它能对信息的不确定性进行恒量,如果某个如果某个信息让我们的判断更加有序,清晰,则它信息熵越小,反之越大。信息让我们的判断更加有序,清晰,则它信息熵越小,反之越大。对于有限个取值的随机变量X,若其概率分布为P =,则该随机变量的信息熵为:H =ln(五)熵和信息熵(五)熵和信息熵信息熵越高,变量随机程度越高举例:随机变量X的取值集合为=1,1,1,2,2,其信息熵为H =0.6 ln0.6 0.4 ln0.4=0.916;随机变量Y的取值集合B=1,2,3,4,5,其信息熵为H =0.2 ln0.2 5=1.609