数学建模的数据挖掘方法课件.ppt

上传人:石*** 文档编号:50512921 上传时间:2022-10-15 格式:PPT 页数:93 大小:5.05MB
返回 下载 相关 举报
数学建模的数据挖掘方法课件.ppt_第1页
第1页 / 共93页
数学建模的数据挖掘方法课件.ppt_第2页
第2页 / 共93页
点击查看更多>>
资源描述

《数学建模的数据挖掘方法课件.ppt》由会员分享,可在线阅读,更多相关《数学建模的数据挖掘方法课件.ppt(93页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、数学建模的数据挖掘方法第1页,此课件共93页哦2 2、支持向量机、支持向量机(support(support vector machines SVM)vector machines SVM)吴雄华吴雄华第2页,此课件共93页哦,定义:设训练数据集为:可以被一个超平面 分开,如果这个向量集(即训练数据集)被超平面没有错误的分开,且离超平面最近的向量与超平面之间的距离之和最大,则称此超平面为此向量集的最优(分类)超平面。如图1所示:1 最优分类超平面第3页,此课件共93页哦对超平面方程两边乘以相同系数仍表示该平面,因此可以做如下假设:这样最优分类超平面应该满足如下条件:可以统一写为第4页,此课件共

2、93页哦其中到平面 的距离为 为平面上任意一点。因此,到平面 的最小距离为 第5页,此课件共93页哦要找到最优分类超平面,可以转换为如下的一个二次规划问题:引入Lagrange函数:第6页,此课件共93页哦令相应的偏导数为即:代入原式,得到第7页,此课件共93页哦因此可以把上述二次规划转为它的对偶问题:解此二次规划可得到 其中 对应的 支持向量机由此而名。称为支持向量,第8页,此课件共93页哦由Kuhn-Tucker条件,最优超平面的系数b 可由 对应的方程 得到,这样便得到了最优分类超平面方程,进而可以用该方程进行分类:若,则 若,则 第9页,此课件共93页哦2.若数据在输入空间线性不可分,

3、则出超平面的约束条件需引入松弛变量 ,相应的得到如下的二次规划:第10页,此课件共93页哦若,则 若,则 按如上方法同理可得到其对偶问题:同样可以得到判别函数第11页,此课件共93页哦3.支持向量机支持向量机(Supportvectormachines,SVM)实现的是如下思想:通过某个非线性的映射将输入向量映射到一个更高维的空间中,使得这些样本在高维空间中线性可分,然后在该空间构造最优分类超平面。如图所示:第12页,此课件共93页哦同时注意到,在原空间中构造最优分类超平面主要解决两个问题:1、点积运算2、求解二次规划可以证明,在高维空间中构造最优分类超平面,也只需知道其点积运算即可,而不需要

4、知道映射 的具体形式。第13页,此课件共93页哦考虑Hilbert空间中内积的一个一般表达式:其中 是输入空间向量 空间在特征中的映像,根据Hilbert-Schmidt理论,(CourantandHilbert,1953)可以是满足如下定理的任意对称函数定理(Mercer)要保证L2下的对称函数能以正的系数 展开成(即描述了在某特征空间中的一个内积)充分必要条件是:对满足的所有 条件 成立。第14页,此课件共93页哦在SVM中,满足上面定理的通常称为核函数空间中的点积运算。,引入核函数的概念可以解决高维常用的核函数有:多项式核函数:高斯核函数:这样便可在高维空间中的解决点积运算:第15页,此

5、课件共93页哦这样只要把前面的点积运算用核函数代替,便可得到高维空间中相应的最优分类超平面。即例第16页,此课件共93页哦3、基于决策树的分类方法例1.下表是用于构造分类模型的数据集,包括14个样本和5个属性:Outlook、Temperature、Humidity、Windy和Play,其中前4个属性是天气,最后一个属性是根据前4个属性的情况说明这样的天气状况是否适合比赛。各属性取值如下:Outlook:sunny(s),overcast(o),rain(r);Temperature:hot(h),mild(m),cool(c);Humidity:high(h),normal(n);Wind

6、y:false,truePlay:Yes(y),no(n)第17页,此课件共93页哦训练样本集如下OutlookTempHumiWindy PlaySHHFNSHHTNOHHFYRMHFYRCNFYRCNTNOCNTYSMHFNSCNFYRMNFYOMNTYOMHTYOHNFYRMHTN第18页,此课件共93页哦决策树是类似如下的一棵树OutlooksunnyrainovercastPlay=noPlay=yeswindyfalsePlay=yesTruePlay=no给定一个新的天气象:“rain,hot,high,true”,则判别其类别第19页,此课件共93页哦决策树的构造:分裂属性的选

7、择四、基于信息增益的特征选择策略1.相关概念设信息源X的取值为A=(a1,a2,an),ai出现的概率为pi,称I(ai)=log(1/pi)=-logpi为ai的信息量;称为X的信息熵。第20页,此课件共93页哦决策树分类方法利用信息量增加(信息增益)作为特征选择的一种指标。信息增益衡量每个属性对分裂后的数据子集的信息量的贡献。假设训练集T包含n个样本,这些样本分别属于m个类,其中第i个类在T中出现的比例为pi,称为集合T的信息熵。如果m=1,即T的样本都属于一个类,则I(T)=0,达到最小值,何时()达到最大?第21页,此课件共93页哦假设属性把集合划分为个子集T1,T2,.,Tv,其中T

8、i所包含的样本数为ni,那么划分后的熵就是:分裂后的信息增益定义为基于信息理论的特征选择方法就是逐一计算每种分裂的信息增益,选择信息增益最大的属性作为分裂属性。下面以前面给出的数据集为例,利用信息增益方法构造决策树。第22页,此课件共93页哦第一步:计算训练样本集的信息量。分类属性Play有两个类,其样本数统计如下:因此T的信息量为:第二步:计算每个属性的信息增益,对于Outlook属性,它有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:样本集TPlay=yesPlay=no样本数95第23页,此课件共93页哦Outlook的信息熵为:OutlookPlay=yesPlay=no

9、totalSunny(T1)134Overcast(T2)505Rain(T3)32514第24页,此课件共93页哦Outlook的信息增益为:同理对于Temperature属性,它也有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:TemperaturePlay=yesPlay=nototalhot(T1)224mild(T2)426cool(T3)31414第25页,此课件共93页哦Temperature的信息熵为:Temperature的信息增益为:第26页,此课件共93页哦对于Humidity属性和Windy属性,统计如下:HumidityPlay=yesPlay=noto

10、talNormal(T1)347high(T2)61714WindyPlay=yesPlay=nototalTrue(T1)336False(T2)62814计算其信息增益值分别为0.1653和0.0481.第27页,此课件共93页哦第三步:比较四个属性的信息增益,按大小顺序排列为Gain(Outlook)Gain(Humidity)Gain(Windy)Gain(Temperature)因此应该选Outlook作为首分裂结点,即决策树的形状为:OutlookSunnyRainOvercast第28页,此课件共93页哦第二层结点的选择与首结点类似,具体选择过程如下:1)对于“Sunny”的分支

11、,从原数据集T中统计出Outlook属性值为sunny的样本作为新的数据集T。OutlookTempHumiWindy PlaySHHFNSHHTNSMHFNSCNFY作为新样本集第29页,此课件共93页哦计算T的信息量为:对于Temperature属性,简单统计如下:TemperaturePlay=yesPlay=nototalhot(T1)022mild(T2)011cool(T3)101显然第30页,此课件共93页哦对于Humidity属性,简单统计如下:显然HumidityPlay=yesPlay=nototalNormal(T1)101high(T2)033WindyPlay=yes

12、Play=nototalF(T1)123T(T2)011第31页,此课件共93页哦因此Sunny分支下的分裂属性可选Temperature或Humidity,若取Humidity,则其属性H和N下的记录都为相同的类,该分支算法结束。OutlookTempHumiWindy PlaySHHFNSHHTNSMHFNSCNFY其分支结构如下:HumiditySunnyHighNormalPlay=NoPlay=Yes第32页,此课件共93页哦若取Temperature,则重新确定记录集如下:OutlookTempHumiWindy PlaySHHFNSHHTNSMHFNSCNFYTempSunnyH

13、ighMPlay=NoPlay=No可以看出其三个分支H,C和M下的所有记录也属于相同的类,此分支算法结束。其分支结构如右:CPlay=Yes第33页,此课件共93页哦2)同理,对于Rain分支,统计数据如下:WindyRainFalseTruePlay=YesPlay=NoOutlook=R TempHumiWindyPlayMHFYCNFYCNTNMNFYMHTN因此选Windy其分支结构如右:第34页,此课件共93页哦3)同理,对于Overcast分支,统计数据如下:Play=Yes该分支下所有记录均为同一类,因此该分支算法结束,其结构如下右。Outlook=Overcast TempH

14、umiWindy PlayHHFYCNTYMNTYMHTYHNFYOvercast第35页,此课件共93页哦综合以上结果,最后得到决策树如下:OutlookTempSunnyHighMPlay=NoPlay=NoCPlay=YesWindyFalsePlay=YesPlay=NoTrueRainPlay=YesOvercast第36页,此课件共93页哦决策树构造好后,给出新的对象便可判别其类别,例如,新的天气对象为:1)“Overcast,cool,high,False”2)“Rain,Mild,Normal,True”,其类别分别为:第37页,此课件共93页哦五、基于数据分布的特征选择策略除

15、了基于信息增益的特征选择策略外,还可以根据结点的数据类别的分布来选择最优分裂结点,称之为GiniIndex方法。定义:假设训练集T包含n个样本,这些样本分别属于m个类,其中第i个类在T中出现的比例为pi,则T的GiniIndex定义为:假设属性把集合划分为个子集T1,T2,.,Tv,其中Ti所包含的样本数为ni,那么这个划分的GiniIndex为:第38页,此课件共93页哦GiniIndex的特征选择方法就是逐一计算按每个属性分裂后的GiniIndex值,选择giniIndex值最小的属性作为分裂属性。下面以前面给出的数据集为例,利用GiniIndex选择策略构造决策树的过程。对总样本进行统计

16、如下:样本集TPlay=yesPlay=no样本数95样本集T的giniIndex值为第39页,此课件共93页哦对于Outlook属性,它有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:OutlookPlay=yesPlay=nototalSunny(T1)134Overcast(T2)505Rain(T3)325每个子集的GiniIndex值如下:因此属性Outlook的GiniIndex值为:第40页,此课件共93页哦同理对于Temperature属性,它也有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:TemperaturePlay=yesPlay=notot

17、alhot(T1)224mild(T2)426cool(T3)314因此属性Temperature的GiniIndex值为:第41页,此课件共93页哦对于Humidity属性和Windy属性,统计如下:HumidityPlay=yesPlay=nototalNormal(T1)347high(T2)61714WindyPlay=yesPlay=nototalTrue(T1)336False(T2)62814计算其GiniIndex值分别为0.3674和0.4357.第42页,此课件共93页哦第三步:比较四个属性的GiniIndex值如下:因此应该选Outlook作为首分裂结点,即决策树的形状为

18、:OutlookSunnyRainOvercast属性OutLTempHumiWindyGiniIndex值 0.2785 0.3750.3674 0.4357第43页,此课件共93页哦第二层结点的选择与首结点类似,具体选择过程如下:对于“Sunny”的分支,从原数据集T中统计出Outlook属性值为sunny的样本作为新的数据集T。Outlook=STempHumi Windy PlayTHHFNHHTNMHFNCNFY第44页,此课件共93页哦对于Temperature属性,简单统计如下:TemperaturePlay=yesPlay=nototalhot(T1)022mild(T2)01

19、1cool(T3)101第45页,此课件共93页哦对于Humidity属性,简单统计如下:显然HumidityPlay=yesPlay=nototalNormal(T1)101high(T2)033WindyPlay=yesPlay=nototalF(T1)123T(T2)011第46页,此课件共93页哦因此Sunny分支下的分裂属性可选Temperature或Humidity,若取Humidity,则其属性H和N下的记录都为相同的类,该分支算法结束。OutlookTempHumiWindy PlaySHHFNSHHTNSMHFNSCNFY其分支结构如下:HumiditySunnyHighNo

20、rmalPlay=NoPlay=Yes第47页,此课件共93页哦剩下的计算类似,最后得到决策树如下:OutlookTempSunnyHighMPlay=NoPlay=NoCPlay=YesWindyFalsePlay=YesPlay=NoTrueRainPlay=YesOvercast第48页,此课件共93页哦六、信息增益和GiniIndex值的另一个应用考虑如下问题:预测贷款申请者是否会按时归还贷款,历史数据如下:顾客Id有房婚姻状况年收入拖欠贷款1是单身125K否2否已婚100K否3否单身70K否4是已婚120K否5否离异95K是6否已婚60K否7是离异220K否8否单身85K是9否已婚7

21、5K否10否单身90K是第49页,此课件共93页哦对于“年收入”属性,它是连续型变量,按前面决策树的构造方法,应该每个属性都是离散型属性。为此,应该把连续型属性划分成若干个区间,这样把该属性化为离散型属性。简单的,若划分为两个区间,如何划分?可以用信息增益或GiniIndex值方法。步骤如下:把连续型属性值由小到大排列,取每两个值的中间值作为候选划分点:类NNNYYYNNNN值607075 859095100 120 125 220候选划分点65 72 8087 9297110122 172第50页,此课件共93页哦然后计算按各个候选划分点划分的信息增益或GiniIndex值,例如,用Gini

22、Index值方法如下:类NNNYYYNNNN值607075 859095100 120 125 220候选划分点65 72 8087 9297110122 172对于候选点65,划分后类别统计如下类=N类=Y=65(T2)63第51页,此课件共93页哦类NNNYYYNNNN值607075 859095100 120 125 220候选划分点65 72 8087 9297110122 172对于候选点72,划分后类别统计如下类=N类=Y=70(T2)53第52页,此课件共93页哦类NNNYYYNNNN值607075 859095100 120 125 220候选划分点65 72 8087 929

23、7110122 172对于候选点80,对于候选点87,对于候选点92,对于候选点97,对于候选点110,对于候选点122,对于候选点172,最佳候选点第53页,此课件共93页哦根据上面的分析,可把“年收入”属性划分成两个区间(0,97)和97,10000)分别设为属性A1和A2,则原数据集变为:顾客Id有房婚姻状况年收入拖欠贷款1是单身125K(A2)否2否已婚100K(A2)否3否单身70K(A1)否4是已婚120K(A2)否5否离异95K(A1)是6否已婚60K(A1)否7是离异220K(A2)否8否单身85K(A1)是9否已婚75K(A1)否10否单身90K(A1)是第54页,此课件共9

24、3页哦再按前面的方法构造决策树,便可对类似的顾客:“否,单身,100K”进行分类判别。第55页,此课件共93页哦七、朴素贝叶斯分类法1.朴素贝叶斯分类方法描述 设样本集T有n个属性:A1,A2,An,可能的类别有m个:C1,C2,Cm,待分类的样本为x=X1,X2,Xn,分别计算条件概率:则条件概率P(Ci|X)最大所对应的类Ci即为X所在的类。在公式(1)中,计算等式左边的每个条件概率时,右边的分母相同,因此只需要计算分子,然后比较大小即可。第56页,此课件共93页哦各概率的计算如下:另外,用朴素贝叶斯分类时还需假设各属性之间相互独立,此时有:2.条件概率 P(xj|Ci)的估计第57页,此

25、课件共93页哦条件概率 P(xj|Ci)的估计值分两种情况情形1.第j个属性Aj为离散型 的情况此时,条件概率P(xj|Ci)可按如下公式计算:第58页,此课件共93页哦例1:给定训练样本集如下,请用贝叶斯方法判别对象:“rain,hot,high,true”的类别。OutlookTempHumiWindy PlaySHHFNSHHTNOHHFYRMHFYRCNFYRCNTNOCNTYSMHFNSCNFYRMNFYOMNTYOMHTYOHNFYRMHTN第59页,此课件共93页哦解:分类属性Play有两个类,Play=yes(C1)和其Play=no(C2),样本数统计如下:于是P(C1)=9

26、/14,P(C2)=5/14对于Outlook属性,数据汇总如下表:样本集TPlay=yes(C1)Play=no(C2)样本数95第60页,此课件共93页哦于是各条件概率为:OutlookC1(Y)C2(N)Sunny13Overcast50Rain32Total95,第61页,此课件共93页哦同理对于Temperature属性,它也有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:TemperaturePlay=yesPlay=nohot22mild42cool31total95于是各条件概率为:,第62页,此课件共93页哦对于Humidity属性和Windy属性,统计如下:H

27、umidityPlay=yesPlay=noNormal34high61total95WindyPlay=yesPlay=noTrue33False62total95试计算其“条件概率”。第63页,此课件共93页哦对于待分类样本:分别计算以下两个概率:=0.333*0.22*0.33*0.3*0.643=0.0053=0.4*0.4*0.8*0.6*0.357=0.0274,因此 为第二类,即不适合比赛。第64页,此课件共93页哦情形2.第j个属性Aj为连续型 的情况tid有房婚姻状况年收入拖欠贷款1是单身125否2否已婚100否3否但是70否4是已婚120否5否离婚95是6否已婚60否7是离

28、婚220否8否单身85是9否已婚75否10否单身90是考虑如下的训练样本集,如何判别样本的类别?第65页,此课件共93页哦属性“年收入”为连续型数据类型,此时如果再用公式 来估计条件概率已不合适,例如,若新样本的“年收入”为110K,则类似的新样本将无法判别。有两种策略可以用了估计连续型属性的条件概率:1.把连续属性离散化;2.用概率分布来估计条件概率第66页,此课件共93页哦1.把连续属性离散化如前面构造决策树的GiniIndex或信息增益方法,把连续属性划分成几个区间,即连续属性离散化。按前面所述,如果把“年收入”划分成两个区间,则最佳的候选划分点为97K,对应区间为(0,97)和97,1

29、0000)。通过计算类Ci中属性“年收入”落入对应区间的比例来估计条件概率即把训练数据集修改为下表第67页,此课件共93页哦 tid 有房 婚姻状况 年收入97K拖欠贷款1是单身否否2否已婚否否3否但是是否4是已婚否否5否离婚是是6否已婚是否7是离婚否否8否单身是是9否已婚是否10否单身是是用Bayes方法估计每个条件概率后,对新给出的任何样本都可以判别。第68页,此课件共93页哦2.用概率分布来估计条件概率假设连续型属性服从某种概率分布(通常假设服从正态分布),然后用训练数据估计出分布的参数,进而计算相应的条件概率。如上例中,假设“年收入”属性为随机变量 对于每个类 Ci,属性值xj属于类C

30、i的概率为 和分别为类Ci中随机变量xj的期望和方差可分别用 Ci中xj的观察值的样本均值和标准差估计。第69页,此课件共93页哦如上表数据中“年收入”数据,分别属于两类,设类别C1=“否”,C2=“是”,对应的观察值如下:类别 C1=“否”的两个参数估计如下:年收入125100701209560220857590拖欠贷款否否否否是否否是否是类别C1=“否”的两个参数估计为:第70页,此课件共93页哦 同理,类别C2=“是”的两个参数估计为:对于新样本 可以估计“年收入”属性相应的条件概率为:第71页,此课件共93页哦 下面用上述方法来判别新样本数据汇总如下:样本集所属的类别。类别C1(No)

31、C2(Yes)total73属性“有房”C1(No)C2(Yes)是30否43Total73第72页,此课件共93页哦 属性“婚姻状况”C1(No)C2(Yes)离异11单身22已婚40Total73对于属性“年输入”,已估计相应的条件概率为:第73页,此课件共93页哦 由以上概率计算样本 相应的条件概率为:因此新样本属于第二类,即“是”拖欠贷款。问题1:有一个属性的类条件概率为0,则整个类的后验概率就等于0,如果样本 的类条件概率X应该如何判别?第74页,此课件共93页哦 问题2:对于连续型属性Xj,估计条件概率时把它视为连续型随机变量,估计的条件概率为那么,这样估计是否合理?内的类条件概率

32、为问题2的解释:但我们知道,对于连续型随机变量,有假设Xj落在区间对于连续型属性Xj的每个取值xj,都使用同一个小正数在比较时,果,因此公式(5)仍可以用了估计相应的条件概率。成为一个常数乘法因此,不影响比较结第75页,此课件共93页哦 对于问题1,通常使用m值法来估计条件概率以解决这种情况。m值估计法:条件概率的估计值用下式进行估计其中,n为训练样本中类Ci的总实例数,nc为Ci类中取值为xj的实例数,m和p是用户事先给定的参数。一般m为正整数,p是位于0与1之间的小数。例.设m=10,p=1/4,试对前面所给的数据重新估计离散型属性的各条件概率。第76页,此课件共93页哦 tid 有房 婚

33、姻状况 年收入97K拖欠贷款1是单身否否2否已婚否否3否但是是否4是已婚否否5否离婚是是6否已婚是否7是离婚否否8否单身是是9否已婚是否10否单身是是第77页,此课件共93页哦最临近分类算法(最临近分类算法(K K临近算法)临近算法)数据挖掘分类算法之数据挖掘分类算法之第78页,此课件共93页哦一、引例 下图给出了二分类训练样本,待判样本当K=5时,可以找K个与待判样本最临近的样本所在的类别作为参考。绿色圆将被赋予红色三角形那个类;当K=3时,因此绿色圆被赋予蓝色四方形类。绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?第79页,此课件共93页哦二、基本思想形象解释:K最近邻(k-Nea

34、rest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思想是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。“如果走像鸭子,叫像鸭子,看起来还像鸭子,那么它就很可能是一只鸭子。”第80页,此课件共93页哦在KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。样本z的k最临近是指和z距离最小的k个数据点。最临近分类器把每个样本看成d维空间的一个数据点,其中d是属性个数。给定一个测试样本z,使用前

35、面介绍的任意一种临近性度量,计算该测试样本与训练集中其他数据点的临近度。第81页,此课件共93页哦图1c图1b图1a下图给出待判数据点的1最临近、2最临近和3最临近示意图。判为负类随机判别判为正类第82页,此课件共93页哦给定训练样本集D和最临近数k计算待判样本与D中每个样本的距离选择与z距离最小的k个样本组成集合Dk待判样本zK最临近算法流程图根据Dk中样本的类别,按少数服从多数的原则决定z的类别结束第83页,此课件共93页哦例1设训练样本集如下表,xi0.5 3.0 4.5 4.6 4.9 5.2 5.3 5.5 7.0 9.5y+请根据1最临近、3最临近、5最临近及7最临近,分别对样本x

36、5.0进行分类判别。第84页,此课件共93页哦解:待判样本x0.5与训练样本间的距离平方(欧氏距离)计算如下表:xi0.53.04.54.64.95.25.35.57.09.5d220.2540.2560.1640.0110.0420.0930.2554720.25y+按7最临近,x应为+类。因此,按1最临近,x应为+类;按3最临近,x应为类;按5最临近,x应为+类;第85页,此课件共93页哦思考:改进思路1:根据距离加权判别;改进思路2:选择不同的k值判决后,再按少数服从多数的原则重新表决(二次表决法);改进思路3:结合改进思路1和2进行改进(综合法)。由上例看出,最临近数k的选择对分类结果

37、影响很大,如何改进该算法的分类功能?第86页,此课件共93页哦设待判样本x到每个最临近xi的距离为,则对x所属类别赋予权值为,改进思路1:根据距离加权判别计算x的k个最临近样本中,属于第j类的加权表决值,则x所属类别为值最大所对应的类别。第87页,此课件共93页哦xi0.53.04.54.64.95.25.35.57.09.5d4.520.550.440.110.220.330.524.5y+因此样本x5应属于+类。例2根据例1中数据,按加权表决法用5最临近对样本x5进行判别。解:对训练样本数据处理如下表:属于+类的加权表决值为:属于类的加权表决值为:第88页,此课件共93页哦改进思路2:二次

38、表决法解:对训练样本数据处理如下表:xi0.53.0 4.5 4.6 4.9 5.2 5.3 5.5 7.0 9.5d4.520.50.40.10.20.30.524.5y+选择不同的k值判决后,再按少数服从多数的原则重新表决。例3:根据例1中数据,按二次表决法对样本x=5进行判别。第89页,此课件共93页哦即+类与类的比为3:2,按少数服从多数的原则,x应判为+类。按1最临近,按3最临近,按7最临近,按5最临近,分别取k1、3、5、7、9,x的类别为:x应为+类;x应为类;x应为+类;x应为+类;按9最临近,x应为类;第90页,此课件共93页哦解:对训练样本数据处理如下表:xi0.53.0

39、4.5 4.6 4.9 5.2 5.3 5.5 7.0 9.5d4.520.50.40.10.20.30.524.5y+例4:根据例1中数据,按综合法表决法对样本x=5进行判别。改进思路3:综合法取K分别为1、2、3、4、5第91页,此课件共93页哦K1时,x为第+类;K2时,x为第+类;,K3时,x为第+类;K4时,x为第+类;K5时,x为第+类;第一步:加权判别第二步:二次表决由于第一步加权判别结果为+类与类比为5:0,因此x被判为+类第92页,此课件共93页哦三、练习与思考思考题1:能否用k最临近做回归预测?练习:用k最临近方法对Iris数据集进行分类,对这个数据集,K最临近方法、支持向量机和神经网络三个方法中那个方法识别率最好?思考题2:能否对k最临近算法进行其它的改进?(提示:可以考虑各类中心)第93页,此课件共93页哦

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁