分类和预测精.ppt

上传人:石*** 文档编号:53980173 上传时间:2022-10-27 格式:PPT 页数:38 大小:1.56MB
返回 下载 相关 举报
分类和预测精.ppt_第1页
第1页 / 共38页
分类和预测精.ppt_第2页
第2页 / 共38页
点击查看更多>>
资源描述

《分类和预测精.ppt》由会员分享,可在线阅读,更多相关《分类和预测精.ppt(38页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、分类和预测第1页,本讲稿共38页一、分类一、分类p数据分类的步骤:数据分类的步骤:n数据准备数据准备n建立模型建立模型n模型评估模型评估n使用模型分类使用模型分类第2页,本讲稿共38页数据准备数据准备o数据清理:数据清理:消除或减少燥声、处理空缺值消除或减少燥声、处理空缺值o相关性分析:相关性分析:数据中与分类和预测任务不相数据中与分类和预测任务不相关的属性分析关的属性分析o数据变换:数据变换:如连续变成离散(年龄分段、收如连续变成离散(年龄分段、收入分段等),区间变化入分段等),区间变化第3页,本讲稿共38页建立模型建立模型o建立模型,描述预定的数据类,通过分析由属性描述建立模型,描述预定的

2、数据类,通过分析由属性描述的数据库元组来构造模型。每个元组属于一个预定义的数据库元组来构造模型。每个元组属于一个预定义的类,由一个称为的类,由一个称为类标号属性类标号属性的属性确定。的属性确定。o比如将人员数据按信用分成比如将人员数据按信用分成优、良、中、一般、差优、良、中、一般、差五五个类,个类,类标号属性类标号属性为数据库的信用属性。为数据库的信用属性。o对于分类,数据元组也称为对于分类,数据元组也称为样本样本、实例实例或或对象对象。为建立模。为建立模型而被分析的数据元组组成型而被分析的数据元组组成训练数据集训练数据集。训练集中的单个。训练集中的单个元组称作元组称作训练样本训练样本,并随机

3、的由样本群选取。,并随机的由样本群选取。o由于提供了每个训练样本的类标号(即指定了按哪个由于提供了每个训练样本的类标号(即指定了按哪个类属性分类),该步也称为类属性分类),该步也称为有指导的学习有指导的学习。第4页,本讲稿共38页模型评估模型评估o首先评估模型的预测正确率,建立一个首先评估模型的预测正确率,建立一个测试测试集集,测试集中数据从样本集随机取出并独立,测试集中数据从样本集随机取出并独立于训练样本。于训练样本。o模型在给定测试集上的模型在给定测试集上的准确率准确率是正确被模型是正确被模型分类的测试样本的百分比。分类的测试样本的百分比。第5页,本讲稿共38页模型评价指标oa是正确预测到

4、的负例的数量,TrueNegative(TN,0-0)ob是把负例预测成正例的数量,FalsePositive(FP,0-1)oc是把正例预测成负例的数量,FalseNegative(FN,1-0)od是正确预测到的正例的数量,TruePositive(TP,1-1)oa+b是实际上负例的数量,ActualNegativeoc+d是实际上正例的个数,ActualPositiveoa+c是预测的负例个数,PredictedNegativeob+d是预测的正例个数,PredictedPositive第6页,本讲稿共38页模型评价指标p准确(分类)率=正确预测的正反例数/总数Accuracy=tru

5、epositiveandtruenegative/totalcasesACC=(TP+TN)/(P+N)p误分类率=错误预测的正反例数/总数Error rate=falsepositiveandfalsenegative/totalcases Error rate=(FP+FN)/(P+N)第7页,本讲稿共38页模型评价指标p正例的覆盖率=正确预测到的正例数/实际正例总数,Recall(True Positive Rate,orSensitivity)=truepositive/totalactualpositiveTPR=TP/P=TP/(TP+FN)ofalsepositiverate(F

6、PR)等同于:fall-outFPR=FP/N=FP/(FP+TN)第8页,本讲稿共38页模型评价指标p负例的覆盖率=正确预测到的负例个数/实际负例总数Specificity(True Negative Rate)=truenegative/totalactualnegativeSPC=TN/N=TN/(FP+TN)=1-FPRpROC曲线,全称是receiveroperatingcharacteristiccurve,中文叫“接受者操作特性曲线”,纵坐标:truepositivesrate(sensitivity),横坐标falsepositivesrate(1-specificity)第9

7、页,本讲稿共38页模型评价指标opositivepredictivevalue(PPV)等同于:precisionPPV=TP/(TP+FP)onegativepredictivevalue(NPV)NPV=TN/(TN+FN)ofalsediscoveryrate(FDR)FDR=FP/(FP+TP)oMatthewscorrelationcoefficient(MCC)MCC=(TP*TN-FP*FN)/sqrt(P*N*P1*N1)oF1scoreF1=2*TP/(P+P1)第10页,本讲稿共38页图例图例训练数据训练数据姓名姓名年龄年龄收入收入信用信用张杨张杨=30底底中中张铭张铭40

8、中中中中李杲李杲40中中中中李雷李雷31.40高高良良.分类算法分类算法分类规则分类规则if(年龄年龄=“31.40”&收入收入=“高高”)信用信用=良良类标号属性类标号属性第11页,本讲稿共38页图例测试数据测试数据姓名姓名年龄年龄收入收入信用信用张侃张侃40高高中中张恬张恬40=30是是否否第13页,本讲稿共38页训练数据集第14页,本讲稿共38页概念“buys_computer”的判定树age?overcaststudent?credit rating?noyesfairexcellent40nonoyesyesyes30.40第15页,本讲稿共38页2、使用决策树进行分类过程、使用决策

9、树进行分类过程o决策树生成算法分成两个步骤决策树生成算法分成两个步骤n树的生成树的生成o开始,数据都在根节点开始,数据都在根节点o递归的进行数据分片递归的进行数据分片n树的修剪树的修剪o去掉一些可能是噪音或者异常的数据去掉一些可能是噪音或者异常的数据o决策树使用决策树使用:对未知数据进行分割对未知数据进行分割n按照决策树上采用的分割属性逐层往下,直到按照决策树上采用的分割属性逐层往下,直到一个叶子节点一个叶子节点第16页,本讲稿共38页3、决策树算法、决策树算法o基本算法(贪心算法)基本算法(贪心算法)n自上而下分而治之的方法自上而下分而治之的方法n开始时,所有的数据都在根节点开始时,所有的数

10、据都在根节点n属性都是种类字段属性都是种类字段(如果是连续的,将其离散化如果是连续的,将其离散化)n所有记录用所选属性递归的进行分割所有记录用所选属性递归的进行分割n属性的选择是基于一个启发式规则或者一个统计的度量属性的选择是基于一个启发式规则或者一个统计的度量 o停止分割的条件停止分割的条件n一个节点上的数据都是属于同一个类别一个节点上的数据都是属于同一个类别n没有属性可以再用于对数据进行分割没有属性可以再用于对数据进行分割第17页,本讲稿共38页4、属性选择方法、属性选择方法-最高信息增益法最高信息增益法(ID3/C4.5)o设设S是有是有s个数据样本的集合。假定类标号属性具个数据样本的集

11、合。假定类标号属性具有有m个不同的值,定义个不同的值,定义m个不同类个不同类Ci(i=1,m)。设设si是类是类Ci中的样本数。中的样本数。对一个给定的样本分类所对一个给定的样本分类所需要的期望信息由下式给出:需要的期望信息由下式给出:其中其中pi是任意样本属于是任意样本属于Ci的概率,一般用的概率,一般用si/s估计代替估计代替pi第18页,本讲稿共38页例:假定有例:假定有50个元组作为样本,则个元组作为样本,则s=50。分成买计算机和不买两。分成买计算机和不买两类,这样,类,这样,m=2,C1是买的样本数据集,是买的样本数据集,C2是不买的,若不买的有是不买的,若不买的有20(即即s2=

12、20),则买的则买的为为30(s1=30)第19页,本讲稿共38页计算信息增益 设属性设属性A有有v个不同值个不同值a1,a2,av。可以根据属性值。可以根据属性值将将S划分为划分为v个个子集子集S1,S2,Sv;sij是子集是子集Sj中类中类Ci的样本数。由的样本数。由A划分成子集的熵(期望划分成子集的熵(期望信息)为:信息)为:第20页,本讲稿共38页 例:假定例:假定v=“年龄年龄”,值为,值为a1,a2,a3=40,这样可以将这样可以将50个样本分成个样本分成3个子集合个子集合S1,S2,S3。C1买计算机的样本集合,买计算机的样本集合,C2是不买是不买的。的。如果在如果在C1中中31

13、.40岁的人有岁的人有5个,则个,则s12=5 以以A分枝将获得的信息增益是:分枝将获得的信息增益是:Gain(A)=I(s1,s2,sm)-E(A)决策树如何分枝?计算属性的信息增益,取最大的信息增益分枝决策树如何分枝?计算属性的信息增益,取最大的信息增益分枝第21页,本讲稿共38页例:电器销售顾客训练数据元组,类标号属性例:电器销售顾客训练数据元组,类标号属性买买PC,构造决策树,构造决策树年龄年龄收入收入学生学生信用信用买买PC=30高高n中中n40中中n中中y40低低y中中y40低低y良良n31.40低低y良良y=30中中n中中n40中中y中中y40中中n良良n 计算每个属性的熵计算每

14、个属性的熵(从年龄从年龄开始开始):C1对应买(对应买(y),C2不买(不买(n)第22页,本讲稿共38页例:电器销售顾客训练数据元组,类标号属性例:电器销售顾客训练数据元组,类标号属性买买PC,构造决策树,构造决策树 计算每个属性的熵计算每个属性的熵(从年龄从年龄开始开始):C1对应买(对应买(y),C2不买(不买(n)年龄年龄收入收入学生学生信用信用买买PC=30高高n中中n40中中n中中y40低低y中中y40低低y良良n31.40低低y良良y=30中中n中中n40中中y中中y40中中n良良n对年龄对年龄=30:s11=2 ,s21=3第23页,本讲稿共38页例:电器销售顾客训练数据元组,

15、类标号属性例:电器销售顾客训练数据元组,类标号属性买买PC,构造决策树,构造决策树 计算每个属性的熵计算每个属性的熵(从年龄从年龄开始开始):C1对应买(对应买(y),C2不买(不买(n)对年龄对年龄 31.40:s12=4 ,s22=0年龄年龄收入收入学生学生信用信用买买PC=30高高n中中n40中中n中中y40低低y中中y40低低y良良n31.40低低y良良y=30中中n中中n40中中y中中y40中中n良良n第24页,本讲稿共38页例:电器销售顾客训练数据元组,类标号属性例:电器销售顾客训练数据元组,类标号属性买买PC,构造决策树,构造决策树 计算每个属性的熵计算每个属性的熵(从年龄从年龄

16、开始开始):C1对应买(对应买(y),C2不买(不买(n)对年龄对年龄 40:s13=3 ,s23=2年龄年龄收入收入学生学生信用信用买买PC=30高高n中中n40中中n中中y40低低y中中y40低低y良良n31.40低低y良良y=30中中n中中n40中中y中中y40中中n良良n第25页,本讲稿共38页用同样的方法计算:用同样的方法计算:Gain(收入收入)=0.029 Gain(学生学生)=0.151 Gain(信用信用)=0.048由于由于Gain(年龄年龄)最大,所以选作测试属性最大,所以选作测试属性计算计算E和和Gain第26页,本讲稿共38页年龄年龄收入收入学生学生信用信用买买PC高

17、高n中中n高高n良良n中中n中中n低低y中中y中中y良良y高高n中中y低低y良良y中中n良良y高高y中中y收入收入学生学生信用信用买买PC中中n中中y低低y中中y低低y良良n中中y中中y中中n良良n收入收入学生学生信用信用买买PC404040=30是是否否5、由决策树给出规则、由决策树给出规则if(年龄年龄=30&student=n)买买PC=nif(年龄年龄30&年龄年龄40&信用信用=良良)买买PC=nif(年龄年龄40&信用信用=良良)买买PC=y决策树决策树第29页,本讲稿共38页6、剪枝问题、剪枝问题o先剪枝:通过提前停止树的构造而对树剪枝。先剪枝:通过提前停止树的构造而对树剪枝。在

18、构造树时,如果按某阀值(比如信息增益在构造树时,如果按某阀值(比如信息增益量小于一定值)停止分裂。但是阀值的选择量小于一定值)停止分裂。但是阀值的选择比较困难,底了可能使树的化简太少,高了比较困难,底了可能使树的化简太少,高了可能导致过分简化。可能导致过分简化。o后剪枝:由完全生长的树剪枝。后剪枝:由完全生长的树剪枝。第30页,本讲稿共38页三、贝叶斯分类三、贝叶斯分类o统计学的方法,可以预测类成员关系的可能统计学的方法,可以预测类成员关系的可能性,即给定样本属于一个特定类的概率。性,即给定样本属于一个特定类的概率。1、贝叶斯定理、贝叶斯定理 后验概率后验概率(posteriori proba

19、bilities):(posteriori probabilities):P(H|X)P(H|X)表示条件表示条件X X下下H H的概率的概率.贝叶斯定理贝叶斯定理:P(H|X)=P(X|H)P(H)/P(X)P(H|X)=P(X|H)P(H)/P(X)第31页,本讲稿共38页2、朴素贝叶斯分类、朴素贝叶斯分类 每个数据样本用一个每个数据样本用一个n n维特征向量维特征向量X=xX=x1 1,x,x2 2,x,xn n 表示,分别描表示,分别描述对述对n n个属性个属性A A1 1,A,A2 2,.,A,.,An n样本的样本的n n个度量。个度量。假定有假定有m m个类个类C C1 1,,C

20、 Cm m,对于数据样本对于数据样本X,X,分类法将预测分类法将预测X X属于类属于类C Ci i,当且仅当当且仅当P(CP(Ci i|X)P(C|X)P(Cj j|X),1=j=m,j|X),1=j=m,j不等于不等于i i根据贝叶斯定理根据贝叶斯定理,P(CP(Ci i|X)=P(X|C|X)=P(X|Ci i)P(C)P(Ci i)/P(X)/P(X)由于由于P(X)P(X)对于所有类都是常数对于所有类都是常数,只需最大化只需最大化P(X|CP(X|Ci i)P(C)P(Ci i)计算计算P(X|CP(X|Ci i),),朴素贝叶斯分类假设类条件独立朴素贝叶斯分类假设类条件独立.即给定样

21、本属性值相即给定样本属性值相互条件独立。(在一般情况下此假定都能成立)互条件独立。(在一般情况下此假定都能成立)在使用中,在使用中,p常用频度代替常用频度代替第32页,本讲稿共38页未知样本为未知样本为 X=(年龄年龄=“=30”,收入收入=“中中”,学生学生=y,信用信用=中中)年龄年龄收入收入学生学生信用信用买买PC=30高高n中中n40中中n中中y40低低y中中y40低低y良良n31.40低低y良良y=30中中n中中n40中中y中中y40中中n良良np(Cp(C1 1)=p()=p(买买PC=yPC=y)=9/14=0.643=9/14=0.643p(Cp(C2 2)=p()=p(买买P

22、C=nPC=n)=5/14=0.357=5/14=0.357p(p(年龄年龄=“=30”|=“=30”|买买PC=y)=2/9=0.222PC=y)=2/9=0.222p(p(年龄年龄=“=30”|=“=30”|买买PC=n)=3/5=0.6PC=n)=3/5=0.6p(p(收入收入=“=“中中”|”|买买PC=y)=4/9=0.444PC=y)=4/9=0.444p(p(收入收入=“=“中中”|”|买买PC=n)=2/5=0.4PC=n)=2/5=0.4p(p(学生学生=“y”|=“y”|买买PC=y)=6/9=0.667PC=y)=6/9=0.667p(p(学生学生=“y”|=“y”|买买

23、PC=n)=1/5=0.2PC=n)=1/5=0.2p(p(信用信用=“=“中中”|”|买买PC=y)=6/9=0.667PC=y)=6/9=0.667p(p(信用信用=“=“中中”|”|买买PC=n)=2/5=0.4PC=n)=2/5=0.4朴素贝叶斯分类示例朴素贝叶斯分类示例第33页,本讲稿共38页p(X|p(X|买买PC=y)p(PC=y)p(买买PC=y)=0.044*0.643=0.028PC=y)=0.044*0.643=0.028p(X|p(X|买买PC=n)p(PC=n)p(买买PC=n)=0.019*0.357=0.007PC=n)=0.019*0.357=0.007由前面的

24、数据:由前面的数据:X=X=(年龄年龄=“=30”,=“=30”,收入收入=“=“中中”,”,学生学生=y,=y,信用信用=中中)属于买属于买PCPC的概率大。的概率大。计算计算p(X|Ci),i=1,2p(X|p(X|买买PC=y)=0.222*0.444*0.667*0.667=0.044PC=y)=0.222*0.444*0.667*0.667=0.044p(X|p(X|买买PC=n)=0.6*0.4*0.2*0.4=0.019PC=n)=0.6*0.4*0.2*0.4=0.019结果结果第34页,本讲稿共38页四、其它的一些分类方法四、其它的一些分类方法p贝叶斯信念网络方法贝叶斯信念网

25、络方法p神经网络方法神经网络方法p以及在商品化的数据挖掘中用的较少的:以及在商品化的数据挖掘中用的较少的:pk_最邻近分类最邻近分类p遗传算法遗传算法p粗糙集合方法粗糙集合方法p模糊集方法模糊集方法第35页,本讲稿共38页五、预测五、预测1 1、线性回归、线性回归 由一个数据可以确定另一个,比如工作年数由一个数据可以确定另一个,比如工作年数x和薪金和薪金y。给定给定s个样本,形如个样本,形如(x1,y1),.,(xs,ys)第36页,本讲稿共38页2 2、多元回归、多元回归3 3、非线性回归、非线性回归预测预测第37页,本讲稿共38页六、评估分类法的准确率六、评估分类法的准确率o保持方法:保持

26、方法:给定数据随机地划分成两个独立的集合:给定数据随机地划分成两个独立的集合:训训练集练集和和测试集测试集。通常,三分之二的数据分配到训练集,。通常,三分之二的数据分配到训练集,其余三分之一分配到测试集。其余三分之一分配到测试集。ok_折交叉确认:折交叉确认:初始数据分成初始数据分成k个互不相交的子集个互不相交的子集S1,S2,Sk,每个子集的大小大致相等。训练和测试进,每个子集的大小大致相等。训练和测试进行行k次。在第次。在第i次迭代中,次迭代中,Si用作测试集,其余的子集都用用作测试集,其余的子集都用于训练分类。即,第一次迭代的分类法在子集于训练分类。即,第一次迭代的分类法在子集S2,Sk上上训练,而在训练,而在S1上测试;第二次迭代在子集上测试;第二次迭代在子集S1,S2,Sk上训上训练,而在练,而在S2上测试;如此下去。上测试;如此下去。第38页,本讲稿共38页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁