《(7.1.1)--7.1分类概述.pdf》由会员分享,可在线阅读,更多相关《(7.1.1)--7.1分类概述.pdf(16页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第7章章 分类分类目录目录 CONTENTS2 7.17.27.37.4分类概述分类概述决策树决策树朴素贝叶斯分类朴素贝叶斯分类惰性学习法惰性学习法7.57.6神经网络神经网络分类模型的评估分类模型的评估Chapter 7.1分类概述分类概述4 7.1 分类概述什么是分类?分类就是根据以往的数据和结果对另一部分数据进行结果的预测。模型的学习在被告知每个训练样本属于哪个类的“指导”下进行新数据使用训练数据集中得到的规则进行分类分类的基本过程:学习阶段:建立一个分类模型,描述预定数据类或概念集。评估模型的预测准确率。如果准确率可以接受,那么使用该模型来分类标签为未知的样本。分类阶段:即使用分类模
2、型,对将来的或未知的对象进行分类。数据集:训练集、测试集、预测数据集5 7.1 分类概述分类与预测 不同点 分类是预测类对象的分类标号(或离散值),根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据。预测是建立连续函数值模型评估无标号样本类,或评估给定样本可能具有的属性值或值区间,即用来估计连续值或量化属性值,比如预测空缺值。相同点 分类和预测的共同点是两者都需要构建模型,都用模型来估计未知值。预测中主要的估计方法是回归分析。6 7.1分类概述分类的相关知识:1、信息熵信息熵用来衡量事件的不确定性的大小,计算公式如下:?逷?=?逷?信息熵具有可加性,即多个期望信息,计算公式如
3、下:?逷?=?=1?逷?7 7.1分类概述分类的相关知识:2、信息增益信息增益表示某一特征的信息对类标签的不确定性减少的程度。?=?逷?逷?其中?逷?是在特征A给定条件下对数据集合D进行划分所需要的期望信息,它的值越小表示分区的纯度越高,计算公式如式(7-4)所示。?逷?=?=1?逷?(7-4)其中n是数据分区数,?表示第j个数据分区的长度,?表示第j个数据分区的权重。8 7.1分类概述 例例7.1 信息增益的计算信息增益的计算 表7-1是带有标记类的训练集D,训练集的列是一些特征,表中最后一列的类标号为是否提供贷款,有两个不同的取值,计算按照每个特征进行划分的信息增益。表7-1 贷款申请的训
4、练集ID学历学历婚否婚否是否有车是否有车收入水平收入水平类别类别123456789101112131415专科专科专科专科专科本科本科本科本科本科研究生研究生研究生研究生研究生否否是是否否否是否否否否是是否否否否是否否否是是是是是否否否中高高中中中高高很高很高很高高高很高中否否是是否否否是是是是是是是否9 7.1分类概述根据公式计算信息熵?逷?。?逷?=915?逷?915615?逷?615=0.971计算按照每个特征进行划分的期望信息,A代表特征“学历”,B代表特征“婚否”,C代表特征“是否有车”,E代表特征“收入水平”。?逷?=515?25?逷?2535?逷?35?+515?35?逷?352
5、5?逷?25?+515?45?逷?4515?逷?15?=0.888?逷?=?逷?=1015?610?逷?610410?逷?410?+515?55?逷?55?=0.647?逷?=915?69?逷?6939?逷?39?+615?66?逷?66?=0.951?逷?=515?45?逷?4515?逷?15?+615?26?逷?2646?逷?46?+415?44?逷?44?=0.608计算信息增益?=?逷?逷?=0.083?=?逷?逷?=0.324?=?逷?逷?=0.020?=?逷?逷?=0.36310 7.1分类概述分类的相关知识:3、信息增益率信息增益率是指按照某一特征进行划分的信息增益与训练集关于这
6、个特征的信息熵的比值。:?,?=?其中:?逷?=?=1?逷?11 7.1分类概述例例 7.2 信息增益率的计算信息增益率的计算基于例7.1的数据,计算按照每个特征进行划分的信息增益率。解:解:根据例7.1计算出的按照每个特征划分的信息增益,A代表特征“学历”,B代表特征“婚否”,C代表特征“是否有车”,E代表特征“收入水平”,计算?逷?。?逷?=515?逷?515515?逷?515515?逷?515=1.585?逷?=1015?逷?1015515?逷?515=0.918?逷?=915?逷?915615?逷?615=0.971?逷?=515?逷?515615?逷?615415?逷?415=1.5
7、66按照公式(7-5)计算信息增益率。?,?=0.0831.585=0.052?,?=0.3240.918=0.331?,?=0.0200.971=0.021?,?=0.3631.566=0.23212 7.1分类概述分类的相关知识:4、基尼系数基尼指数是度量数据分区或者训练数据的不纯度。?=1?=1?其中?是数据集合D中任何一个记录属于?类的概率,可通过?进行计算,?是D中属于?类的集合的记录个数,?是所有记录的个数。如果所有的记录都属于同一个类,则?=1,m是分区数量。基尼指数考虑的是二元化,即将某一特征中的数值分为两个子集,然后进行划分。如果按照特征A作为数据的二元划分准则将D分成?和?
8、,则D的基尼指数为:?=?Gini(?)+?Gini(?)对于属性A的二元划分导致的不纯度降低为?=?(7-9)13 7.1分类概述例例7.3 计算属性的不纯度降低值计算属性的不纯度降低值根据表7-1中的数据计算“学历”属性的基尼指数。解解 使用基尼指数计算公式(7-7)计算D的不纯度:?=1?915?615?=0.48计算属性“学历”的基尼指数。此特征有三个取值:“专科”、“本科”、“硕士”。所以划分值有三个,即三种划分集合,分别为:以“专科”划分:专科、本科、研究生。以“本科”划分:本科、专科、研究生。以“研究生”划分:研究生、专科、本科。考虑集合研究生、本科,专科,D被划分成两个部分,基
9、于这样的划分计算基尼指数为:?本科,专科?、?研究生?=1015Gini(?)+515Gini(?)=1015(1-?12?12?)+515(1-?15?45?)=0.4414 7.1分类概述例例7.3 计算属性的不纯度降低值计算属性的不纯度降低值根据表7-1中的数据计算“学历”属性的基尼指数。解解类似地可以求出属性“学历”其余子集的基尼指数:以“专科”划分的基尼指数为:?本科,研究生?、?专科?=1015Gini(?)+515Gini(?)=1015(1-?310?710?)+515(1-?25?35?)=0.44以“本科”划分的基尼指数为:?专科,研究生?、?本科?=1015Gini(?)+515Gini(?)=1015(1-?25?35?)+515(1-?25?35?)=0.48选择基尼指数最小值0.44作为属性“学历”的基尼指数,因此属性“学历”的不纯度降低值为:?=?=0.48 0.44=0.04同样可以求出每个属性的基尼指数及不纯度降低值。15 7.1分类概述分类的相关知识:5、过拟合通常,模型为了较好拟合训练数据会变得比较复杂,模型复杂的表现就是参数过多。虽然模型在训练数据上有较好的效果,但是对未知的测试数据可能结果会不好,这种现象叫做过拟合。THANKS FOR YOUR ATTENTION感谢指导!感谢指导!