《多元统计分析方法在学生成绩评价中的应用(共41页).doc》由会员分享,可在线阅读,更多相关《多元统计分析方法在学生成绩评价中的应用(共41页).doc(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上多元统计分析方法在学生成绩评价中的应用摘 要多元统计分析是统计学中迅速发展起来的一个重要分支,已经被广泛地应用到经济、金融、医药、卫生等领域,而其在教育教学中的应用仍处于起步阶段,却已被证实效果良好。学生成绩评价的含义,通常是指学校根据一定的标准,即以教学大纲、教学中的准则为标准,对教学过程中学生所产生或者即将产生的思想、学业、行动和个性等方面的变化,或者变化的发展趋势,做出恰如其人的估价。 本文研究以多元统计分析为基本的理论基础,研究主成分分析方法和因子分析方法以及之间的密切联系,对学生成绩进行因子分析及主成分分析,同时指出因子分析方法在选取因子时的相应规则以及因子
2、分析在学生的综合素质评价中的应用,即通过收集到的相关数据,对学生的成绩进行因子分析,进而对学生进行综合评价以及大学期间课程设置的合理性和不同类型的学生的不同特征并对其就业进行具体指导。也阐述了用SPSS进行聚类分析时要注意的问题。对学生成绩进行实证统计分析,并给出了综合评价的有效方法。结论将对科学高效地开展学生成绩综合评定,深层次的挖掘学生的潜在能力,指导毕业生考研升学及就业,开展教育教学研究,提高教学管理部门工作质量、效率提有力支持,同时作为高校教师应该掌握这种科学的管理方法,从多方面来指导自己的教育教学工作,掌握了多元统计分析方法具有切实可行的指导意义,能使高校教师的各项工作达到科学化水平
3、。运用多元统计分析方法,它直接从实际出发,以我院统计学学生4年主要课程的成绩为数据来源,考察分析数据的内在联系和特征,从中提取主要而准确的信息,能帮助我们正确认识事物客观存在的统计规律。关键词:学生成绩;主成分;因子分析Abstract Multivariate statistical analysis is a statistical quickly developed an important branch, has been widely applied to economics, finance, medicine, health and other fields, and its a
4、pplication in education is still in its infancy, it has already been shown to good effect . Evaluation of student achievement meaning, usually refers to schools according to certain criteria, that is, syllabus, teaching guidelines as the standard for the process of teaching students to be incurred a
5、rising from or ideological, academic, and other aspects of operations and changes in personality, or changing trends, people make just as its valuation .In this study, multivariate statistical analysis of the theoretical basis for the fundamental study of principal component analysis and factor anal
6、ysis methods as well as the close link between the student achievement factor analysis and principal component analysis, factor analysis also pointed out that when you factor in the selection of the appropriate rules, and factor analysis in students comprehensive quality evaluation, ie by collecting
7、 the relevant data on student achievement for factor analysis, and then a comprehensive evaluation of the students and university curricula during the rationality and the different types of students different characteristics and on their employment for specific guidance. Also describes the cluster a
8、nalysis using SPSS should pay attention to. On student achievement empirical statistical analysis, and gives a comprehensive evaluation of the effective ways. Conclusions will carry out scientific and efficient assessment of student achievement comprehensive, in-depth mining potential ability of stu
9、dents, graduates PubMed studies and career guidance, conducting educational research, teaching management departments to improve the quality, efficiency mention strong support, but as a college teacher should master the scientific management methods from the fields to guide their teaching work, to g
10、rasp the multivariate statistical analysis method has practical significance, the work of university teachers to make up the scientific level. The use of multivariate statistical analysis, it is directly from reality, in my hospital was the main course of the four-year student achievement as a data
11、source, investigation and analysis of data and characteristics of internal relations, mainly extracted and accurate information that can help us to correctly understand things objectively existing statistical law.Key words: Factor Analysis; Cluster Analysis; College Teaching; SPSS Software; Applicat
12、ion目录 引言多元统计分析的理论是最近发展起来的理论学科,人们对它的研究还很不善有很多新的统计分析方法还没有得到人们的重视,虽然有的统计方法在理论上得到认可,但是在实际应用中不是很广泛.多元统计分析在经济、金融、医药等领域应用比较广泛,但是在教育教学上的应用却受到了限制.尤其是一些普通教师没有真正认识到它的有用性,这种想法是不可取的.多元统计分析在教育领域没有得到很好的应用,主要原因是进行教育教学研究的学者对统计理论掌握的不深,不知道统计结果在教育教学上说明什么;另一方面,对数据有一种恐惧感,尤其是对大量的原始数据不会处理;再就是对计算机的使用有一定的障碍,即不会使用统计软件等.基于以上原因
13、,本文就是想利用多元统计分析软件一SPSS,对所涉及到的高等院校的各个领域进行探讨,每个领域都要用到多元统计分析方法对数据进行处理,通过统计分析得到的结论去指导学生成绩的评价,同时也给老师和职能部门进行决策提供理论依据.本文旨在把多元统计分析在学生成绩评价的应用进行系统化、具体化,首先介绍多元统计分析的几种常用的方法,在阐述方法的同时注重这些方法之间的密切联系;进而说明这些方法在应用时要注意的问题,尤其是因子分析方法在应用时涉及到因子个数的选取问题,本文结合实际例子来加以论证.其中通过对数据进行两次统计分析结说明因子分析在具体问题的处理上应如何选取因子个数的问题.其次是根据大学生的各科成绩利用
14、因子分析方法来对大学生的综合素质进行评价,在评价的同时论证了高等师范院校在大学期间所开设的课程的合理性;利用因子分析的方法对大学生的成绩进行分类,根据分类的结果对大学生的就业进行具体指导等等.这里主要是针对高校教学而言,利用多种多元统计分析方法对数据进行不同的分析,根据不同的分析结果可以指导高校教师做很多细致的工作. 本文在教育教学上有非常好的应用价值,给高校教师对学生的成绩进行综合评价提供了一种科学、合理的方法.高校教师掌握了这种评价方法,使自己的教育教学工作更加具有科学性、合理性和针对性.。第1章 学生成绩评价的简介1.1学生成绩评价的现状 校教育的宗旨是为国家培养高素质的人才,学生成绩的
15、评定要有一定的质量要求,需要定期考核学生在德、智、体诸方面的发展与进步。它是教育领域必须解决的一个问题,一直受到社会学家、心理学家和教育研究者的关注,是当今世界教育十大变革内容之一,严重影响儿童、年轻人、特别是在校学生的成长。全面的学生成绩评定系统可以促进同学们在生理、心理、文化等方面的进步,提高学习效率,可以培养他们积极的学习心态,树立正确的世界观、人生观、价值观、道德观。其评价结果既能反馈教师的教学效果,起到诊断、调节和强化的作用;又能反馈学生的学业进展,起到激发学习积极性,增强自信心,萌发学习成功的感受等效应,促使学生整体素质的提高。反之,如果学生成绩评定系统落后或不全面,必将影响学生的
16、学习生活,影响身心健康全面地发展。目前在高等学校教学管理中,学生考试成绩是评价教学质量的重要指标之一。然后一般情况下,教学管理部门进行学生成绩统计无外乎计算总分、平均分、及格率、优秀率等, 然后通过总分或平均分对学生进行排名。 这种评价方法简便易行,指标能够在一定程度上反映出教师的教学水平和学生的学习状况;但是, 其不全面性和主观性显而易见。而且在高校日常学生管理中,评定各类奖学金、保送研究生、向用人单位推荐优秀毕业生等等,都需要从各方面评价学生成绩。如果仅仅以学生成绩的总分或平均分作为依据,已经远远不能适应当今社会的需要。探索出科学高效的成绩综合评价方法就显得尤为重要。 现在高等学校中比较常
17、见的用于评价学生奖学金的获得与否, 常常仅仅根据学生成绩的好坏(平均积点分) 来评定并定等级, 这样做的一个弊端就是把成绩的好坏作为衡量学生综合素质的唯一指标, 而高校里的其它评优都以此为标准, 结果造成这样一个事实: 大学里只要成绩好就行。然而, 大学里影响学生综合素质的因素不仅仅这些, 还有诸如: 英语四六级、国家计算机、等级考试、数学建模竞赛、课外学术活动、发表论文、全国大学生英语竞赛、数学竞赛等反映学生智育水平的指标; 热爱集体、乐于助人、积极参与活动、不迟到、不早退等体现学生个人生祸作风的指标; 积极向上,锐意进取,自强,自立等体现学生个人思想作风的指标等等, 而如果要考虑学生这些方
18、面的表现比较常见的方法则是根据下文给出的学生的综合测评分来定等级,但目前很多学者认为已有的这两种方法都带有一定的局限性, 都不能公正公平的评价大学生的综合素质,因为平均积点分高低反映的仅仅是学生学习成绩的好坏, 仅仅是学生学习刻苦的程度, 对于大学生来说, 仅仅成绩好是不够的, 更重要的是要具备良好的思想道德品质,而综合测评总分的计算方法是学生自评互评,班级考评和班主任考评的加权平均加上德育和智育分, 它反映的是班级所有同学对该生的综合评价, 涉及到该生的为人,性格,成绩等各方面的因素, 但是带有一定的主观性。1.2 学生成绩评价的概念在学校教育中,考试与教学是不可分割的,考试本身也是一种教学
19、活动。学生对待学习,既有一定的自觉性,也存在一定的惰性。没有考试的教学很难保证稳定、正常的教学秩序和水平的提高,就是不完整的教学。各级各类学校重视使用考试手段来检测和监控教育质量、规范和引导教师的教学行为,对督促学生积极努力地学习、培养他们分析问题和解决问题的能力有着非常重要的作用。因此考试成绩即学生的原始成绩是最能体现学生学习情况的有力因素。 学生成绩评价从狭义是指对一个学生在某一阶段(一学期或某一学年)的原始成绩进行等级式的划分。从广义上指德智体综合测评,体现出知识教育与素质教育的内在有机联系。显然,成绩评价具有评估、定位和引导等作用。所谓的评估作用,就是通过对学生进行各种各样的量化考核,
20、获得成绩,从而得知学生在校学习的好坏程度。当然,在一定程度上也是对有关教职员工的教学和管理水平的评价。成绩评估的定位作用,是指借助对学生的成绩评估,反映出学校的办学条件、办学状态、办学效果、人才培养质量与模式等。成绩评估的引导作用,是指通过对学生进行考核,引导学生掌握怎样的知识结构和向什么方向发展。因此,从表面上来着,学生的成绩考核是针对学生而言的,实质上它具有双重性,应引起全体师生的重视。成绩评价是手段,好好学习是目的。而对于阶段性的评价,比如我们可以从期中阶段的成绩,经过分析评价得到一些对期末阶段甚至以后都有用的信息。1.3学生成绩评价的重要性 作为一个高等院校,它的根本任务是通过教学和教
21、育工作来培养高层次人才,所以教学工作始终是学校的中心工作。高等教育的重点和关键是提高整个教育质量,而学生成绩恰是评估教学质量的重要依据,也是学生是否掌握好所学知识的重要凭证。所以对学生成绩进行分析评价有着重要的意义,并可以把获取的信息反馈到教学研究工作中去。只有很好地利用了这些信息,才能准确的了解整个教学工作,并有效的提高教学质量。因此对考试结果的数据进行挖掘的意义是非常大的,可以科学的评价教学质量,挖掘隐藏在学生考试成绩中的有用的信息,并统计分析评价结果,得出一组相对考评的数据,针对薄弱的学科做出相应的策略,从而提高学生的总体成绩,为提高教学质量提供重要的依据。1.4对学生成绩评价的作用 考
22、试成绩是对学生学业的检查和评定,是从一个侧面对学校培养专门人才的质量检验,通过对学生的学习成绩进行分析处理,可以及时得到学生的评价结果,对学生出现的某些学科成绩偏低,及时做出补救的措施。成绩作为考试的结果,不仅是对学生学业和教师教学效果的检查和评定,进而激励学生学习及教师工作;更是一种信息,具有反馈于教学活动、服务于教育决策、为教育科研提供资料等作用。通过对考试成绩的正确分析,对学生成绩进行聚类挖掘,找出某些学生共同特征,分析某些学生相对薄弱的学科成绩,引起学生和老师针对性的加强,更科学的提高学生的学习成绩。所以教学部门对考试成绩进行聚类挖掘和统计分析是不可缺少的,且是非常必要的。根据以上的介
23、绍,可以总结出考试成绩具有以下几项主要功能:a.确定学生的学业成就在一个群体中所处的相对位置及确定学生达到的学业水平与教育目标所规定的学业标准之间的差距;b.为教学管理提供信息和依据;c.为教学工作提供反馈信息。1.5 研究现状多元统计分析己广泛地应用到社会科学和自然科学的许多领域中。特别是在经济、金融、医药等领域应用比较广泛,但是关于多元统计分析在高校教学中的应用,前人作了很多工作.但是他们所阐述的都是具体针对某一方面的应用,只解决了某一方面的问题,在利用多元统计方法上也受到了某种局限性,大部分文献所利用的多元统计方法都是单一的,没有多种方法结合起来应用,使得在研究过程中得出的结论说理性不强
24、;在进行统计分析时所利用的统计软件版本比较老,给分析带来了限制,如果用最新版本的软件可能得到更多的统计信息;文献中所得到的分析结果没有得到很好的解释和说明.另外,文献中出现了两个极端,一但是在教育教学上的应用却受到了一定的限制。尤其是一些普通高校教师在教学管理上很少应用,以至于影响了他们的工作效率。利用社会科学统计软件包一SPSS,对高等师范院校教师所涉及到的各个领域进行探讨,能使高校教师的教学工作有的放矢。成绩作为考试的结果,不仅是对学生学业和教师教学效果的检验和评定,具有激励学生学习及教师工作,更是一种信息,具有反馈教学活动、服务于教育决策、为教育科研提供资料等作用。为充分发挥考试的效能,
25、综合评价考试质量,及时反馈教学效果,沟通教学信息,教学部门对考试成绩进行统计分析和总结是非常必要的。 学生的个性特征和群体分类特征是学生管理工作中非常重要的信息,尤其是毕业生,需要对他们做出综合评价,以向用人单位提供学生的各方面特征信息。目前,对学生综合评价的一般模型主要有平均分模型、平均学分积模型等。另外,多元统计分析中的主成分分析、因子分析等也是很好的综合评价方法,但大多数大学或院系都是用前两种模型即平均成绩、平均学分积模型作为评价学生的定量依据。用这两种方法比较简单,但有缺点,掩盖了学生的个性,不能反映学生各方面的特点,也反映不出学生的专业能力,对学生作全面的综合评价来说不是很理想。因此
26、,本文着重突出因子分析方法,力求通过成绩给学生一个相对完美的评价。目前对大学生成绩评定方法的研究取得了很大的进展(文献2),主要成果有:比例制、考查制、学分制、德育考评制度等。大学生四年学习成绩是大学四年学习生活的记录,这些记录基本反映了该生四年的学习情况,但在高校学生管理中,经常需要从各方面评价学生的成绩,如评奖学金、向用人单位推荐分配学生等,都需要从各方面评价学生成绩,多元统计分析方法已有应用(介绍多元统计分析的一些基本理论、研究方法。第2章 多元统计分析方法简介 多元统计分析是从经典中发展起来的一个分支,是一种综合分析方法,它能够在多个对象和多个指标互相关联的情况下分析它们的,很适合的特
27、点。主要内容包括多元正态分布及其抽样分布、多元正态总体的向量和协方差阵的假设检验、多元方差分析、回归与相关、与相关()和()、主成分分析与、判别分析与、Shannon信息量及其应用。简称多元分析。 多元统计方法可以应用于学生成绩评价的方法很多,本文主要介绍其中的聚类分析、主成分分析和因子分析三种方法。2.1 主成分分析 主成分分析也称主分量分析,由霍特林(Hotelling )于1933年提出。主成分分析是利用降维的思想,在损失少量信息的前提下,把多个指标转化为少数几个综合指标的多元统计方法。通常把转化得到的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使
28、得主成分比原始变量具有某些更优越的性能。在实际问题研究中,为了全面、系统地分析问题,通常要考虑影响该问题的多方面的因素,称这些因素为指标。因为每个指标都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此可能会有一定的相关性,因而原始指标所反映的信息会彼此有一定程度的重复。在统计分析多指标问题时,往往因为指标太多而增加了问题研究的复杂程度,因此在现实问题研究中,希望能通过较少的指标反映较多的信息量。主成分分析通过降维可以简化指标,使问题变的相对简单,降低了问题的分析难度,对研究实际问题有着重要意义。2.1.1 主成分分析的基本思想主成分分析的基本思想是:将原来的指标做线性组合,依次按照方差
29、最大选取前几个最能反映原来指标的综合指标,分别定义为第一主成分、第二主成分、第三主成分。这些主成分间不仅不相关,而且方差依次递减。虽然这样做会损失一些信息,但由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息,因而在实际问题研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。在对某一事物进行实证研究时,为了更全面、准确地反映事物特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,另一方面考虑指标的增多而增加了问题的复杂性,同时由于各指
30、标均是对同一事物的反映,不可避免地千万信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。基于上述问题,人们就希望在宣研究中波及的变量较少,而得到的信息量双较多。主成分分析法就是把给定的一组相关指标通过线性变换转成另一组不相关的指标,转换后的新指标按照方差递减的顺序依次排列。但在变换中保持指标的总方差不变,使得变换后的第一指标具有最大的方差,称之为第一主成分,第二指标的方差次大,并且和第一指标不相关,称为第二主成分。依次类推,有i个指标就有i个主成分。2.1.2 主成份分析的几何意义在实际问题研究中,为了降低分析的难度,提高分析效率,通常不直接对原始指标(p个)构成的的p维随
31、机向量进行分析,而是先对向量X进行线性变换,把原来的的p维随机向量变换成新的综合变量,其中变量的方差依次递减,且变量之间相互独立,这样,在以损失很少部分信息为代价的前提下,达到简化数据结构,提高分析效率的目的。假设有N个样本,每个样本都有两个观测值,这样,在由变量组成的坐标空间中,N个样品散布的情况如带状。见图2-1.图2-1从图2-1可以看出,这N个样品无论沿轴方向还是沿轴方向,均有圈套的离散性,其离散程度可以分别用变量的方差和的方差定量地表示。显然,若只考虑和中的任何一个,原始数据中的信息均会有较大的损失。因此,考虑通过线性变换,将进行线性组合成两个新的变量。在几何上表示就是将体协同按逆时
32、针方向旋转角度,得到新坐标轴和,坐标旋转公式如下: (2.1.1)其矩阵形式为: (2.1.2)式中,U为旋转变换矩阵,由上式可知它是正交阵,即满足经过这样的旋转之后,N个样品点在轴上的离散程度最大,变量代表了原始数据绝大部分信息,这样,有时在研究问题时,即使不考虑变量也无损大局,从而达到降维的目的。2.1.3 主成分的求解设矩阵,将A特征值依大小顺序排列,不妨设,为矩阵A各特征值对应的标准正交特征向量,则对任意向量x,有 (2.1.3)设随机向量的协方差矩阵为,为的特征值,为矩阵A各特征值对应的标准正交特征向量,则第i个主成分为: (2.1.4)此时 (2.1.5)令P=(),=diag()
33、。由以上绪论,我们把的协方差矩阵的非零特征值对应的标准化特征向量分别作为系数向量,分别称为随机向量X的第一主成分、第二主成分第p主成分。Y的分量依次是X的第一主成分、第二主成分第p主成分的充分必要条件是:(1),即P为p阶正交阵;(2)Y的分量之间互不相关,即D(Y)=diag();(3)Y的p个分量是按方差由大到小排列,即。 在实际问题中,研究多指标问题是经常遇到的,然而在多数情况下,不同指标之间具有一定相关性。由于指标较多再加上指标间有一定的相关性,势必增加了分析问题的复杂性。主成分分析则是数学上处理降维的一种方法。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替
34、原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。 2.2 因子分析 因子分析模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。相比主成分分析,因子分析更倾向于描述原始变量之间的子分析的出发点是原始变量的相关矩阵。因子分析的思想最早是1904年由英国心理学家年查尔斯斯皮尔曼(Charles Spearman)提出的。2.2.1 因子分析的思想 因子分析的基本思想是根据原始变量相关性的大小,把原始变量分组,使得同组内的变量相关性较高,不同组之间的变量相
35、关性较低。每组变量代表一个基本结构,并用一个不可观测的综合变量来表示,称这个基本结构为公共因子。对于所研究的一个具体的问题,原始变量可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。在经济统计中,描述一种经济现象的指标可以有很多,比如要反映物价的变动情况,对各种商品价格做全面固然可以达到目的,但这样做显然耗时耗力,为实际工作者所不取。实际上,某一类商品中很多商品的价格之间存在明显的相关性或相互依赖性,只要选择几种主要商品的价格或进而是对这几种主商品的价格进行综合,得到某一种假想的“综合商品”的价格,就足以反映某一类物价的变动情况,这
36、里,商品的物价就是提取出来的因子。这样,对种类商品物价或公对主要类别商品的物价进行类似分析然后加以综合,就可以反映出物价的整体变动情况。这一过程也就是从一些有错综复杂关系的经济现象中找出少数几个主要因子,每一个主要因子代表经济是相互依赖的一种经济作用。抓住这些主要因子就可以帮助我们对复杂的经济问题进行分析和解释。因子分析还可用于对变量或样品的分类处理,我们在得出因子的表达式之后,可以把原始变量的数据代入表达式得出因子复仇值,根据因子复仇在因子所构成的空间中把变量或样品点画出来,形象直观地达到分类的目的。因子分析不公可以用来研究变量之间的相关关系,还可以用来研究样品这间的相关关系,通常将前者称为
37、R型因子分析,后者称为Q型因子分析。因子分析有如下特点。 (1)因子变量的数量远少于原有的指标变量的数量,对因子变量的分析能够减少分析中的计算工作量。 (2)因子变量不是对原有变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。3)因子变量之间不存在线性相关关系,对变量的分析比较方便。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 2.2.2 因子分析的模型假设有n个样品,每个样品有p个指标,这p个指标之间有较强的相关性。为了便于研究,并消除由于观测量纲的差异及数量级不同所千万的影响,将样本观测数据进行标准化处理,合标准化后的变量均值为0
38、,方差为1。为方便,把原始变量及标准化后的变量向量均用X表示,用表示标准化的公共因子。如果:(1)是可观测随机向量,县城均值向量E(X)=0,协方差矩阵cov(X)=,且协方差矩阵与相关阵列R相等;(2)是不可观测的变量,其均值向量E(F)=0,协方差矩阵cov(F)=I,即向量F的各分量是相互独立的;(3)与F相互独立,且E()=0,的协方差阵是对角方阵 (2.1) 即的各分量之间也是相互独立的,则模型 (2.2)称为因子模型。模型(2.1)的矩阵形式为:X=AF+ (2.3)其中 称A为因子载荷矩阵,称为因子载荷,表示第i变量在第j因子上载荷,的绝对值越大,表明变量与因子的依赖性越大,也可
39、说因子对变量的载荷越大为了更好地理解因子分析方法,有必要讨论一下载荷矩阵A的统计意义以及公共因子与原始变量之间的关系。(1)因子载荷的统计意义。由模型(2.1)即是与的协方差,而注意到,与(i=1,2,p;j=1,2,m)都是均值为0,方左为1的变量,因此,同时也是与的相关系数。(2)变量共同度与剩余方差。称为变量的共同度,记为。同因子分析模型的假设前提,易得 记,则 (2.4)上式表明共同度与剩余方差有互补的关系,越大表明对公共因子的依赖程度越大,公共因子能解释方差的比例越大,因子分析的效果也就越好。(3) 公共因子的方差贡献。考虑某一个公共因子与所有原始变量的关系。记,则表示的是公共因子对
40、于X的每一分量(i=1,2,p)所提供的方差的总和,称为公共因子对原始变量向量X的方差贡献,它是衡量公共因子相对重要性的指标。越大,表明公共因子对X的贡献越大,或者说对X的影响和作用就越大。如果将因子载荷矩阵A的所有(j=1,2,m)都计算出来,并按其大小排序,就可以依此提炼出最有影响的公共因子。2.2.3 因子载荷的求解因子载荷求解的方法有很多,如主成分法、主轴因子法、最小二乘法、极大似然法、因子提取法等。这些方法求解因子载荷的出发点不同,所得的结果也不完全相同。(1) 主成分法假定从相关阵出发求解主成分,设有p个变量,则可以找出p个主成分。将所得的p个主成分按由大到小的顺序排列,记为,则主
41、成分与原始变量之间存在如下关系式: (2.5)式中,为随机向量X的相关矩阵的特征值所对应的特征向量的分量,因为特征向量之间彼此正交,从X到Y的转换关系是可逆的,很容易得出由Y到X的转换关系为:对上面每一等式只保留前m个主成分而把后面的部分用代替,则可转化为: (2.6)式(2.3)在形式上已经与因子模型(2.1)相一致,并且之间相互独立,与之间相互独立。为了把转化成合适的公共因子,现在要做的工作只是把主成分 变成方差为1的变量。为完成此变换,必须将除以其标准差。于是,另,则上式变为: (2.7)这与因子模型(2.1)完全一致,这样,就得到了载荷矩阵A和一组未旋转的初始公共因子。一般设为样本相关
42、阵R的特征根,为对应的标准正交化特征向量。设mp,则因子载荷矩阵A的一个解为:共同度的估计为: (2.8)(2)主轴因子法假定m个公共因子只能解释原始变量的部分方差,利用公共因子方差(或共同度)来代替相关矩阵主对角线上的元素1,并以新得到的这个矩阵(称为调整相关矩阵)为出发点,对其分别求解特征根与特征向量,从而得到因子解。在因子模型(2.1)中,得到如下关于X的相关矩阵R的关系式:式中,A为因子载荷矩阵;为对角阵,其对角元素为相应特殊因子的方差。则称为调整相关矩阵,显然的主对角元素不再是1,而是共同度。分别求解的特征值与标准正交特征向量,进而求出因子载荷矩阵A。此时,有m个正的特征值。设为的特
43、征根,为对应的标准正交化特征向量。mp,则因子载荷矩阵A的一个主轴因子解为:以上分析是以首先得到调整相关矩阵为基础的,而实际,与共同度(或相对的剩余方差)都是未知的,需要先进行估计。一般先给出一个初始估计,然后估计出载荷矩阵A,再给出较好的共同度或剩余方差的估计。(3)极大似然法如果假定公共因子F和特殊因子服从正太分布,则能够得到因子载荷和特殊因子方差的极大似然估计。设为来自正太总体的随机样本,其中。从似然函数的理论知:(2.9)它通过依赖于A和。但式(2.4)并不能唯一确定A,为此,添加如下条件: 这里,是一个对角阵,用数值极大化的方法可以得到极大似然估计和。极大似然估计,和,将使为对角阵,
44、且使式(2.4)达到最大。2.2.4 因子旋转我们得到的初始因子解各主因子的典型代表变量不是很突出,容易使因子的意义含糊不清,不便于对实际问题进行分析。出于这种考虑,可以对初始公共因子进行线性组合,即进行因子旋转,以期找到意义更为明确、实际意义更明显的公共因子。经过旋转后,公共因子对的贡献并不改变,但由于载荷矩阵发生变化,公共因子本身就可能发生很大的变化,每一个公共因子对原始变量的贡献不再与原来相同,经过适当的旋转,我们就可以得到比较令人满意的公共因子。因子旋转分为正交旋转与斜交旋转。正交旋转由初始载荷矩阵A右乘一正交阵而得到。经过正交旋转而得到的新的公共因子仍然优质彼此独立的性质。而斜交旋转
45、则放弃了因子之间彼此独立这个限制,因而可能达到更为乘法的形式,其实际意义也更容易解释。但不论是正交旋转还是斜交旋转,都应当使新的因子载荷系数要么尽可能地接近于零,要么尽可能地远离零。因为一上接近于零的载荷表明与的相关性很弱;而一个绝对值比较大的载荷则表明公共因子在很大程度上解释了的变化。这样,如果任一原始变量都与某些公共因子存在较强的与另外的公共因子之间几乎不相关的话,公共因子的实际意义应付比较容易确定。对于一个具体问题要做因子旋转,有时需要进行多次才能得到满意效果。每一次旋转后,矩阵各列相对方差之和总会比上次有所增加。如此继续下去,当总方差的改变不大时,就可以停止旋转,这样就得到了新的一组公
46、共因子及相应的因子载荷矩阵,使得其各列元素平方的相对方差之和最大。2.2.5 因子得分在因子分析的实际模型中,一般mp,且公共因子是不可观测的隐变量,载荷矩阵A不可逆,因而不能直接求得公共因子用原始变量表示的精确线性组合。而用回归的思想救出线性组合系数的估计值是解决该问题的一种方法,建立如下以公共因子为因变量、原始变量为自变量的回归方程: j=1,2,m (2.10)此处因为原始变量与公共因子变量均为标准化变量,因此回归模型中不存在常数项。在最小二乘意义下,可以得到F的估计值: (2.11)式中,A为因子载荷矩阵R为原始变量的相关阵X为原始变量向量。在得到一组样本值后,就可以代入上面的关系式求出公共因子的估计得分,从而用少数公共因子去描述原始变量的数据结构,用公共因子得分去描述原始变量的取值。2.2.6 因子分析的步骤1 根据研究问题选取原始变量2 对原始变量进行标准化并求其相关阵,分析变量之间的相关性。3 求解初始公共因子及因子载荷矩阵4 因子旋转5 因子得分6 根据因子得分值进行进一步分析。2.3 聚类分析聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。其目的在于使类间对象的同质性最大化和类与类间对象的异质性最大化。聚类分析不公可以用来对样品进行分类,也可以用来对变量进行分类。