《多元分析的基本原理PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《多元分析的基本原理PPT讲稿.ppt(43页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多元分析的基本原理多元分析的基本原理第1页,共43页,编辑于2022年,星期六第八章第八章 多元分析的基本原理多元分析的基本原理本章学习要点本章内容结构第2页,共43页,编辑于2022年,星期六第一节第一节 概述概述一 什么是多元分析 1 多变量系统 (1)产品的指标 (2)教育系统 (3)单变量分析 (如图所示)(4)单变量分析的困难:变量的相关性 第3页,共43页,编辑于2022年,星期六2 多元分析法 (1)变量相关性的例子:P180 有相关性,但是又不能用一个确定的方程描述相互关系 (2)多元分析法:P181 (3)例子第4页,共43页,编辑于2022年,星期六二 多元分析法的分类(从
2、应用的角度)1 用于求综合特性的多元分析法 研究的关键是:多个变量的综合特性 主要方法有:主成分分析、相关分析 2 用于预测的多元分析法 研究的关键是:通过对多个变量的综合研究,进行系统预测 主要方法有:多元回归法、因子分析法、判别函数法第5页,共43页,编辑于2022年,星期六三 多元分析在教育中的应用 1 需求 2 应用举例 3 发展动态第6页,共43页,编辑于2022年,星期六第二节第二节 回归分析回归分析零:引入1 多变量之间的关系 确定的函数关系,变量之间的关系可以通过计算直接得到 不确定的相关关系,教育中的例子很多2 回归分析的任务 用确定的函数关系来描述多个相关变量之间的关系3
3、回归分析的分类(根据回归函数的不同)第7页,共43页,编辑于2022年,星期六一 直线回归(一元线性回归)1 线性回归方程 y=a x +b 其中a、b为回归系数,通过n(大于2)组样本数据,可以计算出a、b。(如果x、y是确定的函数关系,n只需要为2:P184)2 样本数据(观测值)设n=3,有(x1,y1)(x2,y2)(x3,y3)三组数据把x1、x2、x3分别代入回归方程,得到三个对应的计算值y第8页,共43页,编辑于2022年,星期六3 观测值y与计算值y的差异 三组差异分别是:第9页,共43页,编辑于2022年,星期六4 求回归系数(1)对误差求极值(使误差最小)改错:P184(a
4、、b互换位置),经整理得:改错:P185(a、b互换位置)第10页,共43页,编辑于2022年,星期六(2)回归系数 第11页,共43页,编辑于2022年,星期六5 写出回归方程并进行预测6 例:(三个学生的数学、物理成绩)(1)设 样 本 数 据 为(70,75)、(80,85)、(90,90)(2)计算回归系数得:a=0.75,b=23.3(3)写出回归方程:y=0.75 x+23.3(4)进行预测设某学生数学考试得:x=85,预测物理成绩得:y=0.75*85+23.3=87第12页,共43页,编辑于2022年,星期六第13页,共43页,编辑于2022年,星期六7 一般情况 样本数由3变
5、为n(n3)通过完全一样的方法,公式(85)变为:改错:(a、b互换位置)最后得回归系数:改错:(a、b互换位置)第14页,共43页,编辑于2022年,星期六 二 多元线性回归 1 线性回归方程 y=a0+a1 x1+a2 x2+.+ap xp 其中a0、a1、a2.ap为回归系数,通过m(大于p)组样本数据,可以计算出回归系数。2 样本数据(观测值)(x11,x12,.x1p,z1),(xm1,xm2,.xmp,zm)把xi1、xi2.xip分别代入回归方程,得到对应的计算值yi第15页,共43页,编辑于2022年,星期六3 观测值zi与计算值yi的差异第16页,共43页,编辑于2022年,
6、星期六 根据微分学中的极值原理,a0,a1,ap应是下列方程的解第17页,共43页,编辑于2022年,星期六经整理,得:第18页,共43页,编辑于2022年,星期六4 求回归系数 再整理上述方程,得:第19页,共43页,编辑于2022年,星期六上述方程组用矩阵表示,得:当(XX)满秩时(即|XX|0),逆矩阵(XX)-1存在,系数矩阵A可以表示为:第20页,共43页,编辑于2022年,星期六其中A=(a0,a1,a1,ap),称为回归方程的系数矩阵(一列矩阵)而矩阵X则为:而X是X的转置矩阵,Z是个一列矩阵 第21页,共43页,编辑于2022年,星期六三 多项式回归(略)四 指数回归(略)第2
7、2页,共43页,编辑于2022年,星期六五 回归分析的应用1 一元线性回归(1)样本测量值 (2)计算回归系数 得,a=12(这里a=R),b=0(3)写出回归方程:U=12 I (如图所示)(4)进行预测:设某次测量电流得I=0.8,预测电压得:U=12*0.8=9.6第23页,共43页,编辑于2022年,星期六2 多元线性回归 (1)样本数据(取自1979年某高考班)设考生的物理成绩为因变量(z),语文(x1)、数学(x2)、政治(x3)15个考生的测量;测量成绩如下(m=15,p=3):编号编号 语文语文 数学数学 政治政治 物理物理 编号编号 语文语文 数学数学 政治政治 物理物理 1
8、 1 61.5 31 59 32 61.5 31 59 32 9 9 50.5 32 67 57 50.5 32 67 57 2 2 35 35 2323 40.5 8 40.5 8 10 10 57.5 30 47 57.5 30 475 375 37 3 3 56.5 56.54040 53 53 69 69 11 11 47 47 58 63 58 63 68 68 4 4 35 35 19 19 58.5 58.5 21 21 12 12 28 28 28 52 28 52 27 27 5 5 50.5 50.56060 49 49 66 66 13 13 58 58 22 72 22
9、 72 41 41 6 41.5 6 41.5 1515 59 59 41 41 14 14 36 36 23 39 23 39 20 20 7 7 59 59 46 46 68.5 57 68.5 57 15 15 45 33 53 30 45 33 53 30 8 8 41 41 26 26 55 7 55 7第24页,共43页,编辑于2022年,星期六(2)计算回归系数根据矩阵公式计算得a0=-44.6023,a1=0.4166,a2=0.9729,a3=0.5780(3)回归方程 y=-44.6023+0.4166*x1+0.9729*x2+0.5780*x3(4)进行预测某学生考试成
10、绩:语文=40,数学=90,政治=60 预测物理成绩为y=94.4第25页,共43页,编辑于2022年,星期六 第五节第五节 聚类分析聚类分析分类学:根据事物性质进行分类,性质相近的分在一类,性质差别大的分在不同的类一般分类方法的缺陷:往往带有主观性和任意性,不能揭示客观事物内在的本质联系和差别多元统计的应用:形成了数值分类学注:本节选用另一教材,与本书略有不同(数据矩阵行、列相反)第26页,共43页,编辑于2022年,星期六一基本原理(系统聚类法,此外还有动态聚类法)1 设有n 个样品,m个指标,有数据矩阵:第27页,共43页,编辑于2022年,星期六2 规格化变换(使各个指标权重相同,即同
11、等重要)其中的两个极值分别是第j列最大值和最小值结果:每一列数据的最大值为1,最小值为0。然后,重新构造矩阵,仍用X表示注:也可不做规格化处理直接用原始数据,各指标权重可能不同第28页,共43页,编辑于2022年,星期六3 确定距离(亲疏关系)(1)距离的性质 多元统计分析中的距离dij(样品Xi和Xj之间的距离)满足下列3个性质:dij0,对一切Xi、Xj,当且仅当Xi=Xj时,有dij=0;dij=dji,即Xi与Xj的距离=Xj与Xi的距离;对于样品Xi、Xj、Xk,有dij dik+dkj,这是几何学中三角不等式的推广(任意两边之和大于第三边)。第29页,共43页,编辑于2022年,星
12、期六任意两个样品距离越小,说明它们越接近(一致),计算距离的方法很多,主要有欧氏距离、马氏距离(P98)、B-模距离、闵可夫斯基距离(参见吴 国防科技大学出版社:P271(2)欧氏距离(我们只介绍欧氏距离)表示第i个样品与第j个样品之间的距离(矩阵表示形式)(一般表示形式)第30页,共43页,编辑于2022年,星期六(3)距离矩阵(按上述方法分别算出任意两个样品之间的距离)该矩阵共有n行、n列第31页,共43页,编辑于2022年,星期六4 开始聚类(初始为n类,每个样品为1类)从D中找出一个最小值(最小距离法)涉及到的两个类;在数据矩阵X中,把上述两类合并成一类,两组数据取平均值,总的类就减少
13、了一个;重新计算D(实际上只要计算刚合并的那个类与其他各类的距离)重复、,直到所有的样品都归为一类或者归为所需要的类为止。5画出聚类谱系图第32页,共43页,编辑于2022年,星期六二 应用例(10名学生三次测验成绩,要求为4类)1 原始数据及规格化数据第33页,共43页,编辑于2022年,星期六2 计算距离矩阵 第34页,共43页,编辑于2022年,星期六3 开始聚类(1)开始,第5类和第6类的距离最小(0.1919),把第5类和第6类聚类(2)现在还有9个类,数据如下:第35页,共43页,编辑于2022年,星期六(3)重新计算距离矩阵(实际上只要计算(5,6)合类与其它各类的距离)第36页
14、,共43页,编辑于2022年,星期六(4)此时,第2类和第9类的距离最小(=0.2266),把第2类和第9类聚类(5)现在还有8个类,数据如下:第37页,共43页,编辑于2022年,星期六(6)依次类推,重复上述步骤,经过6次聚类之后,可得最后4个类的距离矩阵 第38页,共43页,编辑于2022年,星期六4 画出聚类谱系图 第39页,共43页,编辑于2022年,星期六本章小结:多元统计方法比较符合教育应用中的许多问题,按照具体的技术方法,我们主要介绍了一元和多元回归分析、主成分分析、聚类分析,这些方法的意义、计算方法、应用过程是重点需要掌握的内容。第40页,共43页,编辑于2022年,星期六习题:1,另外补充:2 回归分析的基础是什么?3 完成讲课中聚类分析举例中省略的四次聚类过程。4 在讲课中的多元回归分析的举例中,按照给定的回归方程,y是否会得到大于100分、小于0分的情况?如果会出现,是什么原因产生的?第41页,共43页,编辑于2022年,星期六第42页,共43页,编辑于2022年,星期六第43页,共43页,编辑于2022年,星期六