《多元数据图表示法精选PPT.ppt》由会员分享,可在线阅读,更多相关《多元数据图表示法精选PPT.ppt(48页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多元数据图表示法多元数据图表示法第1页,此课件共48页哦本章学习目标本章学习目标l领会作多元数据图的思想。l会作简单的多元数据图形并且会分析图形。第2页,此课件共48页哦第三章第三章 多元数据图表示法多元数据图表示法 图形有助于我们对所研究数据的直观了解,如果能把一些多元数据直接显示在平面图上,便可以从图形一目了然地看出多元数据之间的关系。当只有一、二维数据时,可以使用通常的直角坐标系在平面上点图;当有三维数据时,也可以使用空间直角坐标系点图,但是已经不方便;当维数大于3时,用通常的方法已不能点图。但是在许多实际问题中,多元数据的维数都大于3。第3页,此课件共48页哦 例 考察北京、上海、陕西
2、、甘肃四个省市人均生活消费支出情况,选取以下五项指标,具体数据如下表:肉禽及制品住房医疗保健交通和通讯文娱用品及服务北京563.51227.78147.76235.99510.78上海678.92365.07112.82301.46465.88陕西237.38174.48119.78141.07245.57甘肃253.41156.13102.96108.13212.20第4页,此课件共48页哦 多元数据图表示法的分类:一类是使高维空间的点与平面上的某种图形应,这种图形能反映高维数据的某些特点或数据间的某些关系;另一类是在尽可能多地保留原数据信息的原则下进行降维,若能使数据维数降至2或1维,则可
3、在平面上点图。第二类分类方法可用后面介绍的主成分分析、因子分析等去解决。这一章只对第一类方法介绍四种图表示法,更多的方法可在有关专著中找到。第5页,此课件共48页哦3.1 3.1 轮廓图轮廓图 作图步骤为:(1)作平面坐标系,横坐标取 个点表示 个变量。(2)对给定的一次观测值,在 个点上的纵坐标(即高度)和它对应的变量取值成正比。(3)连接 个高度的顶点得一折线,则一次观测值的轮廓为一条多角折线形。次观测值可画出 条折线,构成轮廓图。第6页,此课件共48页哦 下图画出四条折线为北京下图画出四条折线为北京、上海、陕西上海、陕西、甘肃五、甘肃五项指标的数据即四个省市五项指标的轮廓。项指标的数据即
4、四个省市五项指标的轮廓。轮廓图第7页,此课件共48页哦 由轮廓图可以看出:北京、上海的居民生活消费较高且相似;陕西、甘肃生活消费较低且相似。如果考察的样品较多,画折线时图形中可能出现重复点多,不便于区分哪个样品对应哪条折线,这时最好多用几种颜色或长短虚实等标志画出折线。第8页,此课件共48页哦下表是我国华北地区5个省市2003年城镇居民家庭平均每人全年消费性支出的六项指标数据考虑微机的普及应用,图形的制作则通过电脑实现。轮廓图、矩阵散点图在SPSS中制作,雷达图则在EXCEL中实现。表表 华北华北5省市城镇居民家庭消费性支出省市城镇居民家庭消费性支出第9页,此课件共48页哦在SPSS中作轮廓图
5、的方法如下:(1)将原始数据输入SPSS中。把不同地区当成变量,而把支出指标当成观测。作轮廓图时的数据组织形式作轮廓图时的数据组织形式 第10页,此课件共48页哦(2)选择菜单项)选择菜单项GraphsLine,打开,打开Line Charts对话对话框,如图。在对话框上方的三个选项用于选择轮廓框,如图。在对话框上方的三个选项用于选择轮廓图的形式,由于是这里是多变量作图,所以选择图的形式,由于是这里是多变量作图,所以选择Multiple。在对话框下面的三个选项中选择。在对话框下面的三个选项中选择Value of individual cases。单击。单击Define按钮,打开按钮,打开Def
6、ine Multiple Line对话框对话框。Line Charts对话框对话框 第11页,此课件共48页哦(3)在在Define Multiple Line对话框中,将代表不同对话框中,将代表不同地区的地区的5个变量移入个变量移入Lines Represent列表框中,将代列表框中,将代表支出指标的变量(表支出指标的变量(variable)移入)移入Variable框中。单框中。单击击OK按钮,即可作出如图所示的轮廓图。从图中可按钮,即可作出如图所示的轮廓图。从图中可以清楚地看出北京市几乎各项支出都排在第一,而山以清楚地看出北京市几乎各项支出都排在第一,而山西省则几乎每项支出都是最低的西省
7、则几乎每项支出都是最低的。Define Multiple Line对话框对话框第12页,此课件共48页哦轮廓图轮廓图第13页,此课件共48页哦散点图又称散布图,它是以点的分布反映变量之间相关关系的可视化方法。矩阵散点图则是一种反映多个变量之间相关关系的二维散点图。利用SPSS制作矩阵散点图的步骤如下:(1)在SPSS中按图11.6的形式组织数据,即把支出指标当成变量,而把不同地区当成观测。图图11.6 作散点图时的数据组织形式作散点图时的数据组织形式第14页,此课件共48页哦 (2)选择菜单项GraphsScatter,打开Scatter plot对话框,如图11.7。该对话框用于选择散点图的
8、形式。选定Matrix,即矩阵散点图,单击Define按钮,打开Scatter plot Matrix对话框,如图11.8。图图11.7 Scatter plot对话框对话框第15页,此课件共48页哦图图11.8 Scatter plot Matrix对话框对话框 第16页,此课件共48页哦 (3)在打开的在打开的Scatter plot Matrix对话框中,将食对话框中,将食品、衣着、居住三个变量移入品、衣着、居住三个变量移入Matrix Variables列表列表框中,将标志变量框中,将标志变量region移入移入Label Cases by列表框中。列表框中。(4)点击)点击OK按钮,
9、得到如图按钮,得到如图11.9所示的矩阵散点图。所示的矩阵散点图。从图从图11.9可以看出,河北、山西、内蒙古在居住和食品消可以看出,河北、山西、内蒙古在居住和食品消费支出方面与北京、天津相比较低,食品与居住支出变量费支出方面与北京、天津相比较低,食品与居住支出变量之间存在一定的线性关系。天津在衣着支出方面较低,与之间存在一定的线性关系。天津在衣着支出方面较低,与最低的河北接近,与最高居住支出形成鲜明对比。北京则最低的河北接近,与最高居住支出形成鲜明对比。北京则除在居住支出方面低于天津外,其他方面支出均高于华北除在居住支出方面低于天津外,其他方面支出均高于华北其他省市。内蒙古则在衣着支出方面仅
10、次于北京,显示出其他省市。内蒙古则在衣着支出方面仅次于北京,显示出某种特殊消费特征。某种特殊消费特征。第17页,此课件共48页哦矩阵散点图矩阵散点图 第18页,此课件共48页哦3.2 雷达图雷达图 作图步骤:(1)作一圆,并把圆周分为 等分。(2)连接圆心和各分点,把这 条半径依次定义为各变量的坐标轴,并标以适当的刻度。(3)对给定的一次观测值,把它的 个分量值分别点在相应的坐标轴上,然后连接成一个 边形,这个 边形就是 元观测值的图示,次观测值可画出 个 边形。第19页,此课件共48页哦第20页,此课件共48页哦例如,根据前表中的数据,调用例如,根据前表中的数据,调用EXCEL图表向导,即图
11、表向导,即可制作出如图可制作出如图17所示的雷达图。图所示的雷达图。图1画出了北京、天画出了北京、天津和河北的雷达图,从图可以看出,三省市消费支出结津和河北的雷达图,从图可以看出,三省市消费支出结构有较大差异。北京人均消费支出的各项指标都高,对构有较大差异。北京人均消费支出的各项指标都高,对应面积最大的六边形,其次是天津,在三个省市中面积应面积最大的六边形,其次是天津,在三个省市中面积最小的是河北,天津在居住支出方面与北京较为接近,最小的是河北,天津在居住支出方面与北京较为接近,而在衣着和交通、通讯支出方面则与河北接近。其他支而在衣着和交通、通讯支出方面则与河北接近。其他支出方面三地存在较大差
12、异。利用雷达图的形状、面积大出方面三地存在较大差异。利用雷达图的形状、面积大小,可以对样品进行初始分类分析。小,可以对样品进行初始分类分析。为了加强雷达图的效果,在雷达图中适当的分配坐标轴是为了加强雷达图的效果,在雷达图中适当的分配坐标轴是很重要的,具体的分配办法要结合分析的问题而定。例如很重要的,具体的分配办法要结合分析的问题而定。例如可将要对比的指标分布在左、右或上、下方,以便于对比可将要对比的指标分布在左、右或上、下方,以便于对比分析。分析。第21页,此课件共48页哦当观测次数当观测次数n较大和指标较多时,画出的雷较大和指标较多时,画出的雷达图线段太多,图形的效果会很差。为了获达图线段太
13、多,图形的效果会很差。为了获得较好的可视化效果,在一张雷达图上可以得较好的可视化效果,在一张雷达图上可以画几个样品观测数据,甚至一张雷达图只画画几个样品观测数据,甚至一张雷达图只画一个样品观测数据。如图一个样品观测数据。如图17所示,对这些所示,对这些图进行比较分析,也可了解其特点。图进行比较分析,也可了解其特点。图图1 第22页,此课件共48页哦图图2第23页,此课件共48页哦图图3第24页,此课件共48页哦图图4第25页,此课件共48页哦图图5第26页,此课件共48页哦图图6第27页,此课件共48页哦图图7第28页,此课件共48页哦 当观测次数 较大时,为使图形清晰,每张图可以只画少数几次
14、观测数据,甚至每张图只画一次观测值。为了获得较好的效果,在雷达图中适当分配变量的坐标轴,并选取合适的尺度是十分重要的。注意:这里坐标轴只有正半轴,因而只能表示非负数据,若有负数据,只能通过合理变换使之非负才行。第29页,此课件共48页哦3.3 调和曲线图调和曲线图 调和曲线图的思想:把高维空间中的一个样品点对应于二维平面上的一条曲线。调和曲线图是D.F.Andrews在1972年提出的三角多项式作图法,所以又称为三角多项式图。第30页,此课件共48页哦 上例数据北京,上海,陕西,甘肃分别对应的曲线为:第31页,此课件共48页哦 调和曲线图第32页,此课件共48页哦 在多项式的图表示中,当各变量
15、的数值太悬殊时,最好先标准化后再作图。调和曲线图对聚类分析很有帮助,如果选择聚类统计量为距离的话,同类的曲线非常靠近拧在一起,不同类的曲线拧成不同的束,非常直观。调和曲线的性质:(1)保线性关系第33页,此课件共48页哦(2)保欧式距离第34页,此课件共48页哦3.4 星座图星座图 思想:将高维空间中的样品点投影到平面上的一个半圆内,用投影点表示样品点。作图步骤:第35页,此课件共48页哦 (3)画出一个半径为1的上半圆及半圆底边的直径。第36页,此课件共48页哦 下面对本章开头所给出的数据,使用相同的权数 作星座图。由数据表易知,各指标的最高分,最低分以及它们的级差 分别为:第37页,此课件
16、共48页哦 它们的星座图如下:第38页,此课件共48页哦 在人工画星座图时,可按下面步骤去作:第39页,此课件共48页哦 有时为了突出星星的位置,也可以不画路径,只画星星,容易想象,如果这 次观测数据来自不同的类,且不同类的观测数据所对应的星星分别相对集中地散步在星座图的不同区域,那么星座图可能用于多变量数据的分类。从作图过程可以看出:星星的位置和路径与权数的选取有关,取不同的权数,画出的星座图也不同。一般权数选取的原则以实际问题的需要而定。通常情况对较重要指标取权数大些,次要指标取权数小些,如果指标的重要程度相差不大或难以区分,则选取等权。多元数据的图表示法还有很多,如脸谱图,树形图,塑像图
17、等等。第40页,此课件共48页哦2023/1/1141 目录 上页 下页 返回 结束 3.5 脸谱图 脸谱图是用脸谱来表达多变量的样品,由美国统计学家H.Chernoff于1970年首先提出,该方法是将观测的个变量(指针)分别用脸的某一部位的形状或大小来表示,一个样品(观测)可以画成一张脸谱。他首先将该方法用于聚类分析,引起了各国统计学家的极大兴趣,并对他的画法作出了改进,一些统计软件也收入了脸谱图分析法,国内也有很多研究工作者将该方法应用于多元统计分析中。第41页,此课件共48页哦2023/1/1142 目录 上页 下页 返回 结束 脸谱图分析法的基本思想是由1518个指针决定脸部特征,若实
18、际资料变量更多将被忽略(有新的画图方法取消了脸的对称性并引入更多脸部特征从而最多可以用36个变量来画脸谱),若实际资料变量较少则脸部有些特征将被自动固定。统计学曾给出了几种不同的脸谱图的画法,而对于同一种脸谱图的画法,将变量次序重新排列,得到的脸谱的形状也会有很大不同。此处我们不对脸谱的各个部位与原始变量的数学关系作过多探讨,而只说明其作图的思想及软件实现方法。第42页,此课件共48页哦2023/1/1143 目录 上页 下页 返回 结束 按照切尔诺夫于1973年提出的画法,采用15个指标,各指标代表的面部特征为:1表示脸的范围,2表示脸的形状,3表示鼻子的长度,4表示嘴的位置,5表示笑容曲线
19、,6表示嘴的宽度,711分别表示眼睛的位置,分开程度,角度,形状和宽度,12表示瞳孔的位置,1315分别表示眼眉的位置,角度及宽度。这样,按照各变量的取值,根据一定的数学函数关系,就可以确定脸的轮廓、形状及五官的部位、形状,每一个样本点都用一张脸谱来表示。而脸谱容易给人们留下较为深刻的印象,通过对脸谱的分析,就可以直观地对原始资料进行归类或比较研究。第43页,此课件共48页哦2023/1/1144 目录 上页 下页 返回 结束 SPlus软件收入了脸谱图的作图方法,下面我们举例说明如何用SPlus软件画脸谱图:【例13-2】仍以我国35个上市公司的八大评价指标为例说明,SPlus画脸谱图的方法
20、非常简单,只要调用faces函数就可以实现了。将前面的资料的数字部分输入SPlus,并令文件名为gongsi.sdd,在命令窗口调用下面的函数:faces(data.matrix(gongsi),fill=T,which=1:8,head=Faces of 35 Companies,ncol=5,scale=T,byrow=T)回车运行就可以生成35个公司的脸谱图,每一个公司用一张脸谱表示出来,但是,此时生成的脸谱图不好与公司名对应,可将35个公司名放入一个向量a中,然后在上面的命令中加入选项labels=a,即可生成如下脸谱图:第44页,此课件共48页哦2023/1/1145 目录 上页 下
21、页 返回 结束 第45页,此课件共48页哦2023/1/1146 目录 上页 下页 返回 结束 脸谱图给人的感觉形象直观,容易留下较深刻的印象,可以根据脸谱图来对各公司的运营能力进行比较,比如根据脸的范围(净资产收益率)来看,方正科技,清华同方,粤电力,深南电,金丰投资等公司处于较高水平,而象渝开发,粤宏远,寰岛实业等公司明显处于较低水平,类似可以对其他指标进行分析。利用脸谱图,还可以直观地对各个公司进行归类。由上图看来,方正科技、深南电、深能源、中兴通讯、粤电力、清华同方、金丰等公司大致可以归为一类,穗恒运、长城计算机、永鼎光缆、宏图高科大致可以归为一类,富龙热力、韶能股分、惠天热电、大连热
22、电、华银电力、长春经开、新黄浦、辽房天、三木集团、青鸟华光、海星科技、龙电股分等公司可以归为一类,剩余的公司大体可以归为一类。此处不再详述。第46页,此课件共48页哦2023/1/1147 目录 上页 下页 返回 结束 在利用脸谱图工具对观测进行比较分析时,值得注意的一点是脸谱的形状受各变量次序的影响很大,在本例中如果把八个指标的次序换一下,得到的脸谱图就会有很大不同。而且,根据脸谱图对各公司的归类有很大的主观性,因为不同的人所关注的脸的部位有很大不同,如有些人对脸的胖瘦比较在意,而有的人对五官的印象特别深,因此对同样的脸谱图,不同的人可能得到不同的结论,在实际分析中,该方法必须与聚类,相关等定量分析相结合才能得到比较合理可信的结论。第47页,此课件共48页哦2023/1/1148 目录 上页 下页 返回 结束 例13-3表13-1是五大钢铁公司反映经营状况的十大指标,为了比较国内钢铁公司与韩国蒲项钢铁公司的差距,下面做出韩国蒲项钢铁公司、宝钢、鞍钢、武钢、首钢五家钢铁公司的脸谱图。第48页,此课件共48页哦