《结构方程模型案例.pdf》由会员分享,可在线阅读,更多相关《结构方程模型案例.pdf(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 20 世纪主流统计方法技术:因素分析 回归分析 20 世纪 70 年代:结构方程模型时代正式来临 结构方程模型是一门基于统计分析技术的研究方法学,它主要用于解决社会科学研究中的多变量问题,用来处理复杂的多变量研究数据的探究与分析。在社会科学及经济、市场、管理等研究领域,有时需处理多个原因、多个结果的关系,或者会碰到不可直接观测的变量(即潜变量),这些都是传统的统计方法不能很好解决的问题。SEM 能够对抽象的概念进行估计与检定,而且能够同时进行潜在变量的估计与复杂自变量/因变量预测模型的参数估计。结构方程模型是一种非常通用的、主要的线形统计建模技术,广泛应用于心理学、经济学、社会学、行为科学等
2、领域的研究。实际上,它是计量经济学、计量社会学与计量心理学等领域的统计分析方法的综合。多元回归、因子分析和通径分析等方法都只是结构方程模型中的一种特例。结构方程模型是利用联立方程组求解,它没有很严格的假定限制条件,同时允许自变量和因变量存在测量误差。在许多科学领域的研究中,有些变量并不能直接测量。实际上,这些变量基本上是人们为了理解和研究某类目的而建立的假设概念,对于它们并不存在直接测量的操作方法。人们可以找到一些可观察的变量作为这些潜在变量的“标识”,然而这些潜在变量的观察标识总是包含了大量的测量误差。在统计分析中,即使是对那些可以测量的变量,也总是不断受到测量误差问题的侵扰。自变量测量误差
3、的发生会导致常规回归模型参数估计产生偏差。虽然传统的因子分析允许对潜在变量设立多元标识,也可处理测量误差,但是,它不能分析因子之间的关系。只有结构方程模型即能够使研究人员在分析中处理测量误差,又可分析潜在变量之间的结构关系。简单而言,与传统的回归分析不同,结构方程分析能同时处理多个因变量,并可比较及评价不同的理论模型。与传统的探索性因子分析不同,在结构方程模型中,我们可以提出一个特定的因子结构,并检验它是否吻合数据。通过结构方程多组分析,我们可以了解不同组别内各变量的关系是否保持不变,各因子的均值是否有显著差异。”目前,已经有多种软件可以处理 SEM,包括:LISREL,AMOS,EQS,Mp
4、lus.结构方程模型包括测量方程(LV 和 MV 之间关系的方程,外部关系)和结构方程(LV 之间关系的方程,内部关系),以 ACSI模型为例,具体形式如下:测量方程 yy+y ,xx+x=(1)结构方程 B+或(I-)+(2)其中,和分别是内生 LV 和外生 LV,y 和 x 分别是和的 MV,x 和y 是载荷矩阵,和是路径系数矩阵,和是残差。三种分析方法对比 线性相关分析:线性相关分析指出两个随机变量之间的统计联系。两个变量地位平等,没有因变量和自变量之分。因此相关系数不能反映单指标与总体之间的因果关系。线性回归分析:线性回归是比线性相关更复杂的方法,它在模型中定义了因变量和自变量。但它只
5、能提供变量间的直接效应而不能显示可能存在的间接效应。而且会因为共线性的原因,导致出现单项指标与总体出现负相关等无法解释的数据分析结果。1 2 3 1 2 3 1 2 3 负荷量 潜在变量 观察变量 误差 1 2 1 1 2 3 测量模式 3 1 1 y1 y1 y1 1 1 1 结构模式 结构方程模型分析:结构方程模型是一种建立、估计和检验因果关系模型的方法。模型中既包含有可观测的显在变量,也可能包含无法直接观测的潜在变量。结构方程模型可以替代多重回归、通径分析、因子分析、协方差分析等方法,清晰分析单项指标对总体的作用和单项指标间的相互关系。结构方程模型假设条件 合理的样本量(James St
6、evens 的 Applied Multivariate Statistics for the Social Sciences 一书中说平均一个自变量大约需要 15 个 case;Bentler and Chou(1987)说平均一个估计参数需要 5 个 case 就差不多了,但前提是数据质量非常好;这两种说法基本上是等价的;而 Loehlin(1992)在进行蒙特卡罗模拟之后发现对于包含 24 个因子的模型,至少需要 100 个 case,当然 200 更好;小样本量容易导致模型计算时收敛的失败进而影响到参数估计;特别要注意的是当数据质量不好比如不服从正态分布或者受到污染时,更需要大的样本量
7、)连续的正态内生变量(注意一种表面不连续的特例:underlying continuous;对于内生变量的分布,理想情况是联合多元正态分布即 JMVN)模型识别(识别方程)(比较有多少可用的输入和有多少需估计的参数;模型不可识别会带来参数估计的失败)完整的数据或者对不完整数据的适当处理(对于缺失值的处理,一般的统计软件给出的删除方式选项是 pairwise 和 listwise,然而这又是一对普遍矛盾:pairwise 式的删除虽然估计到尽量减少数据的损失,但会导致协方差阵或者相关系数阵的阶数 n 参差不齐从而为模型拟合带来巨大困难,甚至导致无法得出参数估计;listwise 不会有pairw
8、ise 的问题,因为凡是遇到 case 中有缺失值那么该 case 直接被全部删除,但是又带来了数据信息量利用不足的问题全杀了吧,难免有冤枉的;不杀吧,又难免影响整体局势)模型的说明和因果关系的理论基础(实际上就是假设检验的逻辑你只能说你的模型不能拒绝,而不能下定论说你的模型可以被接受)结构方程模型的技术特性:1.SEM 具有理论先验性 2.SEM 同时处理测量与分析问题 3.SEM 以协方差的运用为核心,亦可处理平均数估计 4.SEM 适用于大样本的分析一般而言,大于 200 以上的样本,才可称得上是一个中型样本。5.SEM 包含了许多不同的统计技术。6.SEM 重视多重统计指标的运用 结构
9、方程模型的实施步骤 模型设定。研究者根据先前的理论以及已有的知识,通过推论和假设形成一个关于一组变量之间相互关系(常常是因果关系)的模型。这个模型也可以用路径表明制定变量之间的因果联系。模型识别。模型识别时设定 SEM 模型时的一个基本考虑。只有建设的模型具有识别性,才能得到系统各个自由参数的唯一估计值。其中的基本规则是,模型的自由参数不能够多于观察数据的方差和协方差总数。模型估计。SEM 模型的基本假设是观察变量的反差、协方差矩阵是一套参数的函数。把固定参数之和自由参数的估计带入结构方程,推导方差协方差矩阵,使每一个元素尽可能接近于样本中观察变量的方差协方差矩阵 S 中的相应元素。也就是,使
10、与 S 之间的差异最小化。在参数估计的数学运算方法中,最常用的是最大似然法(ML)和广义最小二乘法(GLS)。模型评价。在已有的证据与理论范围内,考察提出的模型拟合样本数据的程度。模型的总体拟合程度的测量指标主要有 检验、拟合优度指数(GFI)、校正的拟合优度指数(AGFI)、均方根残差(RMR)等。关于模型每个参数估计值的评价可以用“t”值。模型修正。模型修正是为了改进初始模型的适合程度。当尝试性初始模型出现不能拟合观察数据的情况(该模型被数据拒绝)时,就需要将模型进行修正,再用同一组观察数据来进行检验。探索性分析 定义:探索性因子分析法(Exploratory Factor Analysi
11、s,EFA)是一项用来找出多元观测变量的本质结构、并进行处理降维的技术。因而,EFA 能够将将具有错综复杂关系的变量综合为少数几个核心因子。探索性因子分析(EFA)致力于找出事物内在的本质结构。探索性分析的适用情况:在缺乏坚实的理论基础支撑,有关观测变量内部结构,一般用探索性因子分析。先用探索性因子分析产生一个关于内部结构的理论,再在此基础上用验证性因子分析。但这必须用分开的数据集来做。探索性分析步骤:、辨别、收集观测变量。按照实际情况收集观测变量,并对其进行观测,获得观测值。针对总体复杂性和统计基本原理的保证,通常采用抽样的方法收集数据来达到研究目的。、获得协方差阵(或 Bravais-Pe
12、arson 的相似系数矩阵)。我们所有的分析都是从原始数据的协方差阵(或相似系数矩阵)出发的,这样使我们分析得到的数据具有可比性,所以首先要根据资料数据获得变量协方差阵(或相似系数矩阵)。、确定因子个数。有时候你有具体的假设,它决定了因子的个数;但更多的时候没有这样的假设,你仅仅希望最后的到的模型能用尽可能少的因子解释尽可能多的方差。如果你有 k 个变量,你最多只能提取 k 个因子。通过检验数据来确定最优因子个数的方法有很多,例如 Kaiser 准则、Scree 检验。方法的选择由,具体操作时视情况而定。、提取因子。因子的提取方法也有多种,主要有主成分方法、不加权最小平方法、极大似然法等,我们
13、可以根据需要选择合适的因子提取方法。其中主成分方法一种比较常用的提取因子的方法,它是用变量的线性组合中,能产生最大样品方差的那些组合(称主成分)作为公共因子来进行分析的方法。e1 e2 e3 f2 1 2 3 因子负荷 潜变量 指标 残差 f3 f1 、因子旋转。因子载荷阵的不唯一性,使得可以对因子进行旋转。这一特征,使得因子结构可以朝我们可以合理解释的方向趋近。我们用一个正交阵右乘已经得到的因子载荷阵(由线性代数可知,一次正交变化对应坐标系的一次旋转),使旋转后的因子载荷阵结构简化。旋转的方法也有多种,如正交旋转、斜交旋转等,最常用的是方差最大化正交旋转。、解释因子结构。最后得到的简化的因子
14、结构是使每个变量仅在一个公共因子上有较大载荷,而在其余公共因子上的载荷则比较小,至多是中等大小。通过这样,我们就能知道所研究的这些变量是由哪些潜在因素(也就是公共因子)影响的,其中哪些因素是起主要作用的,而哪些因素的作用较小,甚至可以不用考虑。、因子得分。因子分析的数学模型是将变量表示为公共因子的线性组合,由于公共因子能反映原始变量的相关关系,用公共因子代表原始变量时,有时更利于描述研究对象的特征,因而往往需要反过来将公共因子表示为变量的线性组合,即因子得分。验证性因子分析 定义:验证性因子分析是对社会调查数据进行的一种统计分析。它测试一个因子与想对应的测度项之间的关系是否符合研究者所设计的理
15、论关系。验证性因子分析(confirmatory factor analysis)的强项在于它允许研究者明确描述一个理论模型中的细节。因为测量误差的存在,研究者需要使用多个测度项。当使用多个测度项之后,我们就有测度项的“质量”问题,即效度检验。而效度检验就是要看一个测度项是否与其所设计的因子有显著的载荷,并与其不相干的因子没有显著的载荷。对测度模型的检验就是验证性测度模型。对测度模型的质量检验是假设检验之前的必要步骤。而验证性因子分析(CFA)是用来检验已知的特定结构是否按照预期的方式产生作用。验证性因子分析的步骤:e1 e2 e3 f1 1 2 3 负荷 潜变量 观测变量 残差 、定义因子模
16、型。包括选择因子个数和定义因子载荷。因子载荷可以事先定为 0 或者其它自由变化的常数。或者在一定的约束条件下变化的数(比如与另一载荷相等)。这是和探索性因子分析在分析方法上的一个重要差异,我们可以用一个直观的比喻,也就是说探索性因子分析是在一张白纸上作图,而验证性因子分析是在一张有框架的图上完善和修改。、收集观测值。定义了因子模型以后,我们就可以根据研究目的收集观测值了。这一点与探索性因子分析有一定的相似之处。、获得相关系数矩阵。与探索性因子分析一样,我们的分析都是在原始数据的相关系数矩阵基础上进行的,所以首先就要得到相关系数矩阵。实际上方差协差阵、相似系数矩阵和相关阵之间是可以相互转化的。、
17、根据数据拟合模型。我们需要选择一个方法来估计自由变化的因子载荷。在多元正态的条件下,最常用的是极大似然估计,也可采用渐进分布自由估计。、评价模型是否恰当。这一步可以说是验证性因子分析的核心。当因子模型能够拟合数据时,因子载荷的选择要使模型暗含的相关阵与实际观测阵之间的差异最小。最好的参数被选择以后,差异量能被用来作为衡量模型与数据一致的程度。最常用的模型适应性检验是卡方拟合优度检验。原假设是模型是适应性模型,备择假设是存在显著差异。但是,这个检验受样本量大小影响,包含大样本的检验往往会导致拒绝原假设,尽管因子模型是合适的。其他的统计方法,比如用 Tucker-Lewis 指数,比较建议模型和“
18、原模型”的拟合度。这些方法受样本量大小影响不大。、与其他模型比较。为了得到最优模型,我们需要完成这一步。如果你想比较两个模型,其中一个是另一个的缩略形式,你就能从卡方统计量的值检查出他们的差别,大约服从卡方分布。几乎所有独立因子载荷的检验能用来作为全因子模型和简因子的模型之间的比较。为以防你不是在检查全模型和简模型,你可以比较均方根误差的近似值(RMSEA),它是模型中每个自由度差异的一个估计值。验证性分析适用情况 验证性因子分析要处理推论统计量,处理难度要求高。需要具备更大容量的样本。精确的样本量要随着观测值和模型的因子数变化而变化,但一个标准模型至少需要 200 个个体。在进行分析过程中必
19、须选择与每个因子在很大程度上匹配的变量,而不是可能是潜在变量的“随机样本”。基于结构方程全模型的大学生就业预期情况分析 0 引言 随着我国经济的不断发展,我国高校大规模扩招,越来越多的年轻人获得了接受教育的机会。从社会发展的角度来讲,大批高素质的人才培养是与我国快速发展的社会经济水平相适应的。然而,由此也带来了两方面的问题:一是本科生的就业矛盾日益突出,几乎每一个大学生都在切身感受就业的恐慌;二是人才的竞争加剧,加之市场对于人才的需求多元化,考研或出国深造成为提高我们本科生自身核心竞争力的一种渠道,同时也是规避就业难的一种新途径;那么,在如此就业形势严峻、人才竞争加剧的当今社会,大学生们对自己
20、将来的就业有怎样的预期呢 本论文基于辽宁工程技术大学数学与统计学院2005 级统计系本科生于 2007 年 10 月至11 月期间收集的题目为“大学生就业与深造意向调查”的原始问卷资料,欲从大学生的就业预期角度出发,结合结构方程模型,分析大学生预期就业手段和预期就业地域方面的相关情况,并期望推广结构方程模型应用于问卷分析的方法。1 问题分析 研究目的 本论文在采用量表方式对问卷中的定性变量予以赋值后,欲分析影响大学生预期就业手段和预期就业地域的因素,并期望得到各个因素与大学生预期就业手段、预期就业地域之间的关系的度量。需注意:该调查的调查对象是辽宁工程技术大学全日制在读本科生。调查对象仅仅是来
21、自大学生这个总体的一个群或层。根据抽样调查的相关理论,辽宁工程技术大学在读本科生并不具有典型代表性,即它作为大学生总体的一个群被抽出并不具备随机性和强代表性。因此,本论文从这份调查数据出发,仅仅只是从一个相对小的视角研究大学生预期就业手段、预期就业地域方面的情况,结果不一定适用于大学生总体。问卷数据归属于 2009 年 10 月这个时点,因此,本论文的分析结果当然是对 2009 年10 月这个时点相关情况的反映。研究方法 本论文考虑建立结构方程全模型来研究大学生预期就业手段和预期就业地域(内生潜变量)与其各个因素(外生潜变量)之间的关系,并量化这种关系。结构方程模型的优势就在于引入潜变量(不可
22、直接观测的量),使人们考虑问题的思路跃然纸上,显得更加系统化。也就是,它以如下的方式考虑问题:外源观测变量 内生观测变量 那么,研究外生潜变量对内生潜变量的影响实质上就是间接研究 X 指标对 Y 指标的影响。只不过,结构方程把由同一个潜变量控制的指标划分为一类,表示这一类指标受该潜变量的影响,使得问题的分析更加的系统。值得注意的是,本论文的研究基础问卷资料来自于第二方的调查资料,第二方事先并未考虑过用结构方程模型分析问卷。那么,本文运用结构方程模型分析问卷,问卷中的问题就不一定能很好地切合结构方程模型,由此可能引起相当的误差。这也就决定了我们在确定运用结构方程模型分析问卷时,已有心理准备面对模
23、型可能出现的整体拟合效果不好等问题,故本文着眼于推广结构方程模型建模方法在问卷分析中的应用。也就是说,欲用结构方程模型分析问卷,应该事先根据相关理论或经验初步设定几个潜变量,然后在问卷中为每一个潜变量设置若干的题目来测量它。2 问卷数据的收集 数据来源 本论文数据来自于辽宁工程技术大学理学院2007 级统计系本科生于 2009 年 10 月至 11月期间收集的题目为“大学生就业与深造意向调查”的原始问卷资料。该次调查的调查对象为辽宁工程技术大学全日制在读本科生(辽宁工程技术大学二级学院的学生不包括在内)。具体说来,本论文仅仅提取在问卷的“甄别问题”部分回答“就业”的那部分人(共计 280 人)
24、的相关信息进行分析。抽样方法 该次调查按学科类别(文科、理科、工科、其他)和年级(大一、大二、大三、大四)将研究总体分为16 个层,由于“其他类”的大一和大四的数据难以取得,因此,仅针对其余X 指标 外生潜变量 内生潜变量 Y 指标 14 个层进行抽样。根据抽样框,在每层中按简单随机抽样抽取 20%的班级,同时在抽中的班级中按简单随机抽样抽取 30%的学生。问卷内容及执行情况 调查问卷详见附录三。该次调查专门成立调查组,按照被抽中学生的花名册由专人负责发放问卷,共计发放问卷 788 份,实际收回问卷 758 份,提取有效问卷 706 份。3 问卷数据的处理 定性变量的分类及赋值方法 二项分类变
25、量:比如性别(男,女),常赋值为0,1 或1,2;无序分类变量多项分类变量:比如学科类别(工,文,理),常赋值为1,2,3,仅表示类别,无实际意义定性变量 (所分类别或属性之间无程度或顺序的差别。)有序分类变量:比如满意度按非常不满意、不满意、一般、满意、非常满意分类,常赋值为1,2,3,注意要等间距,表示程度的递进或顺序 的递增(递减)。(所分类别之间有程度的差别。)本文变量的设置 表 1 指标的设置 变量符号 变量名 取值情况 X1 生源地 X1=1 西部;X1=2 中部;X1=3 东部 X2 户口类型 X2=0 农村户口;X2=1 城镇户口 X3 父亲受教育程度 X3=1 初中以下;X3
26、=2 初中;X3=3 高中或中专 X3=4 大专或本科;X3=5 研究生以上 X4 母亲受教育程度 X4=1 初中以下;X4=2 初中;X4=3 高中或中专 X4=4 大专或本科;X4=5 研究生以上 X5 月可支配生活费 X5=1 300 元以下;X5=2 300500 元 X5=3 500800 元;X5=4 800 元以上 X6 对就业形势的看法 X6=1 很不好;X6=2 不好;X6=3 一般 X6=4 较好;X6=5 非常好 X7 所学专业前景看法 X7=1 很不好;X7=2 不好;X7=3 一般 X7=4 较好;X7=5 非常好 X8 参加就业辅导的次数 X8=0 参加 0 次;X
27、8=1 参加 1 次 X8=2 参加 2 次;X8=3 参加 4 次以上 X9 就业资格证书个数 X9=0、1、2、3 X10 四、六级考证情况 X10=0 四、六级都没过;X10=1 过四级;X10=2 过六级 X11 参加社会实践次数 X11=0 从不参加;X11=1 参加 1、2 次 X11=2 参加 3、4 次;X11=3 参加 4 次以上 Y1 是否自主创业 Y1=0 否;Y1=1 是 Y2 工作地域 Y2=1 农村地区;Y2=2 县级地区 Y2=3 地级城市及州市;Y2=4 省会城市及直辖市 表 2 潜变量的设置 变量符号 变量名 变量包括的指标 外生潜变量 1 社会经济地位 X1
28、、X2、X3、X4、X5 2 对就业状况的把握 X6、X7、X8 3 自身能力 X9、X10、X11 内生潜变量 1 预期就业手段 Y1 2 预期就业地域 Y2 4基于结构方程模型的大学生预期就业手段和就业区域情况分析 结构方程模型简介 很多社会、教育、心理等研究中涉及的变量,都不能准确、直接地测量,比如学习动机、家庭社会经济地位等,我们称这样的变量为潜变量。潜变量往往只能通过一些外生指标去衡量,比如用父母受教育程度、学生户口类型、父母收入等外生指标来衡量学生的社会经济地位(潜变量)。传统的统计分析方法不能妥善处理这些潜变量,而结构方程全模型则能同时处理潜变量及其指标。它是一种基于变量的协方差
29、矩阵来分析多个变量之间关系的一种统计方法,也称为协方差结构分析。并且,它有机地整合了多元统计中的因子分析方法、生物学中的路径分析方法以及计量经济学中的联立方程模型。结构方程全模型由测量方程和结构方程组成。若结构方程模型中只包括测量方程,则又称为验证性因子模型。关于测量方程和结构方程的形式,最普遍的情况是设定为线性模型。测量方程用来描述指标与潜变量之间的关系,用下述模型表示:12124.1(,.,).,mXnYTTmuXXAYAXx xxmuAm uX 这里,是由 个外生指标构成的列向量;(,)是由 个外生潜变量构成的列向量;是一个维的矩阵,称作 在 上的因子负荷阵,描述了外生指标与外生潜121
30、21212,.,(,.,).,.,TmTTnvYnmYy yynvAn vYn 变量之间的关系;是 维的误差项列向量。是由 个内生指标构成的列向量;(,)是由 个内生变量构成的列向量;是一个维的矩阵,称作 在 上的因子负荷阵,描述了内生指标与内生潜变量之间的关系;=是 维的误差项列向量。结构方程用来描述外生潜变量与内生潜变量之间的关系,用下述模型表示:124.2,Tvv vv uv 这里,、同上定义;是一个维的矩阵,描述内生潜变量之间的关系;是一个的矩阵,是 在 上的负荷,描述外生潜变量对内生潜变量的影响;为一个 维结构模型残差项列向量,反映了模型中未能解释 的部分。模型的基本假定 一般假定,
31、每一个指标,ijx y1,2,;1,2,im jn只在其对应的潜变量上有不为0的因子负荷,而在其他潜变量上的因子负荷为 0。内生变量之间的路径(相关或单方面影响)依据经验和相关理论而定。测量误差项i与外生潜变量j之间(,1,2,i jm)、测量误差项i与内生潜变量j之 间不相关(,1,2,i jn);ij与(,1,2,;i jm ij)、ij与(,1,2,;i jn ij)、ij与(,1,2,;i jv ij)不相关。结构方程模型路径图及形式 结合研究目的,首先我们根据相关研究及经验,找出影响大学生的预期就业手段和预期就业地域这两个内生潜变量的外生潜变量。然后,对问卷中的相关指标进行初步归类,
32、建立验证性因子模型,并进行相关的参数估计、不断修正,最终确定潜变量的结构后,再加入结构方程模型。下图为拟采用的结构方程全模型的路径分析图,欲对各路径参数进行估计。图 1 拟采用的全模型路径分析图 图1 的符号说明:正方形或长方形表示指标;圆或椭圆表示潜变量;单向箭头表示单向影响;双箭头表示X1 X2 X3 X4 X5 社 会 经济地位 X6 X7 X8 对就业状况的把握 X9 X10 X11 自 身 能力 预 期 就业手段 预 期 就业地域 Y1 Y2 1 2 1 2 3 外生潜变量 内生潜变量 Y指标 X指标 相关;单向箭头指向指标表示测量误差;单向箭头指向潜变量表示内生潜变量未被解释的部分
33、。注意:确定需要用哪些指标衡量潜变量,可以根据经验分析进行初步归类,也可以使用多元统计分析中因子分析的方法进行探索。然后,对初步归类的指标建立验证性因子模型(即只有测量方程),并进行相应的参数估计,比较从属于同一潜变量的各路径参数的大小,进行相应的路径删减。结构方程全模型是否可识别不仅取决于数据质量,更取决于模型设定形式是否正确。模型形式的正确性就表现在潜变量指向指标的单向路径、外生潜变量之间的双向路径、内生潜变量之间的单向或双向路径、外生潜变量指向内生潜变量的单向路径划定是否正确。每一条路径对应一个待估参数(主要是模型中的系数(负荷)、误差方差、潜变量之间的相关系数)。一般的思路是先建立验证
34、性因子模型,不断修正(删减路径或改变路径相连方式)、保证指标与潜变量之间的从属关系成立后,再建立结构方程,不断修正,渐渐修改为相对理想的模型。在没有任何理论依据或经验的前提下,我们要考虑任意两个外生潜变量之间、任意两个内生潜变量之间的相关关系(路径为双向),然后根据模型的参数估计结果进行相应的路径增减。由图 1,注意到本文拟采用的模型中,两个内生潜变量1和2均分别只用一个指标1Y和2Y衡量,相当于潜变量就是指标。原则上,结构方程模型并不允许这样的情况出现,因为单指标潜变量的存在会使得模型无法识别。倘若这种情况真的出现了,需在参数估计时固定负荷或方差等(详见附录四的程序)。本文模型的设定形式不得
35、不包含单指标的潜变量,主要是由于我们基于第二方设计的问卷进行相关问题的分析,使得问卷内容设计和模型形式设定脱节,从而导致有些潜变量找不到一定数量的、合适的指标来测量。对照图 1,模型的形式设定为:112131411512162237211829310,311,31xxx 0 0 0 0 0 0 0 0 0 0 0 00 00 00 0 0 0 0 0 1211X+A 11111222222Yyy 0 0 A 12112212,1 实际上,由于内生潜变量为单指标潜变量,就是,无需估计,因而也就不存在误差项,。11112131121122212212223233 0 0 模型的识别 常用t 法则判
36、断模型是否可识别:在结构方程模型 4.14.2中,共有mn个可观测变量,记t为模型中自由估计的参数个数,则模型可识别的一个必要条件是:()(1)/2tmn mn 该模型中共含有 35 个参数,包括 11 个负荷、3 个潜变量之间的相关系数、11 个观测变量的误差方差、结构模型的 8 个未知参数、2 个内生潜变量的误差方差。由于3513 14/291,故该模型可识别。模型的参数估计以及参数的显著性检验 1、模型的参数估计 利用结构方程模型软件对模型的未知参数进行估计,源程序、输出结果分别见附录四和附录五。结构方程模型参数估计的基本思想是:求参数使得模型隐含的协方差矩阵与样本协方差矩阵“差距”最小
37、。对这个矩阵之间“差距”的不同定义方法,产生了不同的模型拟合方法及相应的参数估计。最常用的结构方程模型参数估计方法是极大似然函数法(ML),虽然此法需要假定观测指标的分布为正态或近似正态分布,但很多研究表明,即使指标的分布不为正态分布,ML 方法也能得到合适的估计,尤其在大样本条件下。也即,ML 估计是稳健的。2、模型参数的显著性检验 的输出结果给出了未标准化情况下,各因子负荷的估计以及与各负荷相应的标准差估计值和t 检验统计量值。一般可简单地取t值大于 2 为显著,即此时认为相应的负荷显著不为0。若有某几个因子负荷不显著,每次取消一个路径,重新运行程序后,再进行负荷的显著性 检验,重复此过程
38、,直到各个负荷均显著为止。的输出结果也给出了标准化情况下参数的估计结果。标准化情况下,参数估计结果不受各指标或因子量纲的影响,便于对变量之间的相互关系进行分析。本文的模型采用标准化情况下的参数估计结果,并且分两步确立:第一步建立验证性因子模型,确定潜变量的结构;第二步按照图 1 的模型(即加入结构方程),运行程序,删除不显著的路径后再次运行程序,共经历两次路径删除后,估计结果显示所有的因子负荷在置信水平90%下,均已显著。从而得到本文估计模型的具体形式:12110.4040.7120.7680.8100.65310.5190.6790.6340.9000.427xxx 0 0 0 0 0 0
39、0 0 0 0 0 00 00 00 0 0 0 0 1122311111222124.30.2340.9970200.8860030.2540yy +0 11122230.1230.1620.1450.19100 此外,输出结果(见附录五)中没有包含违背常理的参数估计值,比如说没有出现方差小于0、相关系数大于 1 等情况,说明用该模型拟合原始数据是合适的。模型的整体拟合评价 根据结构方程模型中评价模型拟合优劣的相关理论,通常采用以下几种指标来评价模型的拟合效果:相对拟合指数(CFI):取值于 01 之间,越接近于 1,模型整体拟合越好;近似均方根误差指数(RMSEA):其值越小越好。一般认为
40、,RMSEA 低于表示好的拟合,低于表示非常好的拟合。调整后的拟合优度指数(AGFI):取值于 01 之间,越接近 1,模型整体拟合越好。本文模型的拟合优劣指标汇总如下:表 3 模型的拟合指数 指标 CFI RMSEA AGFI 取值 结合各个拟合指数的判断标准,由表1知,模型整体拟合效果一般。前述节的注意(4)已分析过原因。模型参数估计结果的解释 每一个观测指标对其从属的潜变量的标准化参数估计值(即负荷),有效地反映了该指标与相应潜变量之间的相关程度,同时也反映了潜变量对相应观测指标的解释能力。这可以由下图中各路径的参数清晰地表征出来:图2 结果路径图 对比图1和图2,显然,在参数估计过程中
41、,一些不显著的路径和方向被删除了。由结果路径图,我们可以看出:X1 X2 X3 X4 X5 社 会 经济地位 X6 X7 X8 对就业情况的把握 X9 X10 X11 自 身 能力 预 期 就业手段 预 期 就业地域 Y1 Y2 1 2 1 2 3 X在 上的负荷 在 上的负荷 在 上的负荷 各个路径参数意义 误差项方差 大学生的社会经济地位1、对就业情况的把握程度2、自身能力3对他们的预期就业手段均有影响,但影响差异不大。这与现实情况是相符的,通常家庭社会经济地位决定了大学生自主创业的原始资本(资金来源以及人际关系等),对就业情况的把握程度决定了大学生自主创业的动机和方向,而自身能力则决定了
42、大学生自主创业的勇气和胆识。大学生的社会经济地位1对他们的预期就业地域有影响,但大学生对就业情况的把握程度2、自身能力3对他们的预期就业地域几乎没有影响。这也与现实情况相符,大学生的社会经济地位高低决定了他们对于就业地域的偏向(比如,现实中,比起家庭社会经济地位相对低的学生,往往是家庭社会经济地位相对高的学生更偏向于选择各方面条件都相对较好的地域工作譬如省会城市,也即家庭社会经济地位相对低的学生更能容忍相对差一些的工作地域)。另外,大学生对就业情况的把握程度以及自身能力对预期就业地域影响不显著,不管大学生对就业情况的把握程度如何,也不管大学生自身能力如何,现实中大学生预期就业地域的选择往往是家
43、乡、发达城市或学校所在地。相比于预期就业地域对预期就业手段的影响,预期就业手段对预期就业地域的影响要更显著。这也是显然的,自主创业必然要考虑目标地域的供求情况,通常省会城市等需求相对大,供给才有市场。5个潜变量在13个观测指标上的标准化因子负荷不小于的有6个。在标准化的情况下,指标与潜变量之间的复相关系数就是因子负荷的平方。因此,有 6个复相关系数大于,也就是说,相应的潜变量能解释指标的50%以上。但仅有6个复相关系数大于,再次说明模型的解释能力一般,原因仍然是问卷内容设计和模型形式设定脱节,使得衡量潜变量的指标不恰当或过少。模型存在的问题 通常从拟合原始数据的能力和预测性能两方面评价一个模型
44、。结构方程模型则更偏向于验证我们事先提出的关于潜变量的结构、潜变量之间的因果关系是否成立,并且量化变量之间的相互影响关系。若主要关注的是模型的预测性能,则结构方程并非首选。若采用 SPSS 或结构方程模型的软件,需要进行隔一段时间后的纵向调查,取得序列数据的支撑。大家可以选择系统动力学等软件。本文的模型拟合原始数据的能力一般,主要归咎于问卷内容设计与模型形式设定的脱节,使得无法找到一定数量的、恰当的指标来衡量潜变量。也就是说,本文建构的模型迁就于问卷,模型形式的设定可能有失偏颇。这也给问卷设计者提出了参考建议:要把问卷内容设计与欲采用的模型相结合,问卷内容要紧扣模型。本文的模型不得不引入单指标潜变量,为保证模型的可识别性,又不得不在进行参数估计时固定某些负荷以及某些误差的方差,虽然无法衡量这会使模型整体估计受到多大程度的影响,但造成误差是确定无疑的。一般说来,衡量潜变量的指标越多,潜变量的结构越稳定,模型参数估计越容易收敛。为保证模型的可识别性,每个潜变量应至少用三个指标来衡量。