《Chap聚类分析和判别分析实用.pptx》由会员分享,可在线阅读,更多相关《Chap聚类分析和判别分析实用.pptx(27页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、二、分类1.样品聚类(Q型聚类):对n个观测对象(观察单位)进行聚类。2.变量聚类(R型聚类):对m个观测指标(变量)聚类。第1页/共27页三、描述指标:相似性系数相似性系数(similarity coefficient)1.样品聚类(Q型)计量:Pearson r 等级:Spearman rs 计数:列联系数 c 2.变量聚类(R型)计量:欧氏、马氏距离 等级:数量化欧氏、马氏 计数:列联系数 c 第2页/共27页四、聚类方法 1.有序样品聚类:大小顺序,同类样品必须相邻。Hb2.模糊聚类:属性模糊矩阵分类。三好、优干3.快速聚类(Quick cluster,K-均值聚类K-Means Cl
2、uster,逐步聚类):L19-1大nk类k个中心(均值)归类(最小距离原则)。4.系统聚类:L19-2 n类缩类(相近原则)k类(目标)第3页/共27页学生编号测验项目常识 算术 理解 填图 积木 译码 1 14 13 28 14 22 392 10 14 15 14 34 353 11 12 19 13 24 394 7 7 7 9 20 235 13 12 24 12 26 386 19 14 22 16 23 377 20 16 26 21 38 698 9 10 14 9 31 469 9 8 15 13 14 4610 9 9 12 10 23 46【例19-1】某小学10名9岁男
3、学生六个项目的智力测验得分如表19-1所示,用Q型聚类对这10名学生的智力状态进行分类。第4页/共27页【SPSS操作】样品聚类,可用快速聚类法。建立6列10行的数据文件L19-1.sav:以常识、算术、理解、填图、积木、译码为变量名。Analyze Classify K-Means Cluster,所有变量入Variables;将“Number of Clusters:2 改为 3(智力分上中下3类)Options,ANOVA table、Cluster information for each case Continue OK第5页/共27页第6页/共27页第7页/共27页(上中下3类智力
4、只在填图和译码的平均分上差别有统计学意义,即填图和译码可作为聚类变量)第8页/共27页【例19-2】L19-1.sav:按测试项目进行聚类分析。变量聚类,采用系统聚类法。Analyze Classify Hierarchical Cluster(系统聚类分析),所有变量入Variable(s),Variables(变量聚类)Plots,Dendrogram(树状图,显示每步合并的聚类与系数的值)ContinueOK 第9页/共27页第10页/共27页第11页/共27页22判别分析(discriminant analysis)P273一、意义:判别样品所属类型。用于判别任意一个已知特定测量指标取
5、值,但分类未知的个体应归属于哪一类。判别值Ya1X1+a2 X2+amXm (19-1)a l、a2、am为各变量的判别系数。聚类:要划分的类型事先不知,确定类型。无类分类判别:已知变量值及其分类,建立判别式,对未知类型的样品进行判别分类。如评优.有类归类判别分析和聚类分析往往联合起来使用。第12页/共27页二、步骤 第13页/共27页三、方法:按判别准则1.Fisher判别法(典则判别canonical discriminant):用于两类判别(g=2)。L19-3 金标准 A、B两类:m个观测指标,nA、nB例判别界值Yc(YA+YB)/2判别规则:个体YiYc A类;YiYc B类;Yi
6、Yc 任一类。第14页/共27页2.Bayes判别法:多类判别(g2)。先验概率用Bayes公式构造判别函数计算个体属于各类别的后验概率按后验概率值最大并超过后验概率的临界值进行归类。第15页/共27页四、判别效果的考核判别函数必须通过验证才能应用。1.训练样本回代法:用建立判别函数的训练样本进行回代错判概率。偏低。2.样本二分法:将已知类别的大n随机分成大小两部分大的部分(85)建立判别函数,小的用于验证错判概率。3.刀切法(jackknife交叉考核法):n个逐个搁置对其余的n-1个个体进行判别分析,求出判别规则,对搁置的个体进行考核,共n次,假阳性率、假阴性率、总错误率和ROC曲线等。第
7、16页/共27页【例19-3】经名老中医辩证为实热、虚寒两种证型的14例功能性子宫出血患者皮质醇含量(g/dl)和淋巴细胞转化率(%)资料见表19-2。建立对两种证型进行鉴别诊断的判别函数。某功能性子宫出血就诊者,皮质醇含量为18.0g/dl,淋巴细胞转化率为65%。判断是何证型。第17页/共27页第18页/共27页第19页/共27页根据Wilks统计量最小化法,可认为皮质醇判别更有意义。第20页/共27页Wilks 值=0.036,P=0.000,这个典则判别函数有统计学意义。标准化典则判别函数式为(判断各变量影响的大小):分类=0.924皮质醇+0.331淋巴细胞 第21页/共27页各类别
8、重心位置。非标准化典则判别函数式为(计算观察对象的判别函数值):辨证分型=0.661皮质醇+0.137淋巴细胞21.447 第22页/共27页第23页/共27页Fisher线性判别函数:实热证=11.601皮质醇+11.725淋巴细胞558.679 虚寒证=5.265皮质醇+10.408淋巴细胞353.095 第24页/共27页某就诊者:皮质醇18.0(g/dl),淋巴细胞65(%),判别是何证型:非标准化:分类=0.66118.0+0.1376521.4470.6440,应判为虚寒证型。Fisher判别函数:实热证=11.60118+11.72565558.679412.264虚寒证=5.26518+10.40865353.095418.195因实热证虚寒证,应判为虚寒证型。第25页/共27页 五、注意事项1.训练样本是关键:代表性,原始分类必须正确无误。2.判别指标要适当:筛选。3.样本含量足够大:n为自变量个数的1020倍以上。4.类别数多效果差:进行多个两两判别。5.判别规则要合格:前瞻性考核合格才能应用于实践。6.判别函数要修正。第26页/共27页感谢您的欣赏!第27页/共27页