《应用多元统计(朱建平)课后答案.doc》由会员分享,可在线阅读,更多相关《应用多元统计(朱建平)课后答案.doc(16页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-第二章2.1.试叙述多元联合分布和边际分布之间的关系。解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,的联合分布密度函数是一个p维的函数,而边际分布讨论是的子向量的概率分布,其概率密度函数的维数小于p。2.2设二维随机向量服从二元正态分布,写出其联合分布。解:设的均值向量为,协方差矩阵为,则其联合分布密度函数为。2.3已知随机向量的联合密度函数为其中,。求(1)随机变量和的边缘密度函数、均值和方差;(2)随机变量和的协方差和相关系数;(3)判断和是否相互独立。(1)解:随机变量和的边缘密度函数、均值和方差; 所以由于服从均匀分布,则均值为,方差为。同理,由于服从均匀分布,则均值为,
2、方差为。(2)解:随机变量和的协方差和相关系数; (3)解:判断和是否相互独立。和由于,所以不独立。2.4设服从正态分布,已知其协方差矩阵S为对角阵,证明其分量是相互独立的随机变量。解: 因为的密度函数为又由于则则其分量是相互独立。2.5由于多元正态分布的数学期望向量和均方差矩阵的极大似然分别为 注:利用 , S 其中 2.6 渐近无偏性、有效性和一致性;2.7 设总体服从正态分布,有样本。由于是相互独立的正态分布随机向量之和,所以也服从正态分布。又所以。2.8 方法1: 。方法2: 。故为的无偏估计。2.9.设是从多元正态分布抽出的一个简单随机样本,试求的分布。证明: 设为一正交矩阵,即。令
3、,所以。且有,。所以独立同分布。又因为因为又因为所以原式故,由于独立同正态分布,所以2.10.设是来自的简单随机样本,(1)已知且,求和的估计。(2)已知求和的估计。解:(1), (2) 解之,得,第三章3.1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。其基本思想和步骤均可归纳为:答:第一,提出待检验的假设和H1;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。均值向量的检验: 统计量 拒绝域均值向量的检验:在单一变量
4、中当已知 当未知 (作为的估计量)一个正态总体协差阵已知 协差阵未知 () 两个正态总体有共同已知协差阵 有共同未知协差阵 (其中 )协差阵不等 协差阵不等 多个正态总体单因素方差 多因素方差 协差阵的检验检验 检验 统计量第四章4.2 试述判别分析的实质。答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间构造一个“划分”,这个“划分”就构成了一个判别规则。
5、4.3 简述距离判别法的基本思想和方法。答:距离判别问题分为两个总体的距离判别问题和多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。4.4 简述贝叶斯判别法的基本思想和方法。基本思想:设k个总体,其各自的分布密度函数,假设k个总体各自出现的概率分别为,。设将本来属于总体的样品错判到总体时造成的损失为,。设个总体相应的维样本空间为 。在规则下,将属于的样品错判为的概率为 则这种判别规则下样品错判后所造成的平均损失为 则用规则来进行判别所造成的总平均损失为 贝叶斯判别法则,就是要选择一种划分,使总平均损失达到极小。4.5 简述费希尔判别法的基本思想
6、和方法。答:基本思想:从个总体中抽取具有个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的个指标值代入线性判别函数式中求出值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。4.7 设有两个二元总体和 ,从中分别抽取样本计算得到 , 假设,试用距离判别法建立判别函数和判别规则。 样品X=(6,0)应属于哪个总体?解:= ,= , =即样品X属于总体第五章5.2 试述系统聚类的基本思想。答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合
7、适的类中。5.5试述K均值法与系统聚类法的异同。答:相同:K均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。不同:系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。5.7 检测某类产品的重量, 抽了六个样品, 每个样品只测了一个指标,分别为1,2,3,6,9,11.试用最短距离法,重心法进行聚类分析。(1)用最短距离法进行聚类分析。采用绝对值距离,计算样品间距离阵 0 1 0 2 1 0 5 4 3 0 8 7 6 3 0 10
8、 9 8 5 2 0由上表易知 中最小元素是 于是将,聚为一类,记为计算距离阵 0 3 0 6 3 0 8 5 2 0 中最小元素是=2 于是将,聚为一类,记为计算样本距离阵 0 3 0 6 3 0中最小元素是 于是将,聚为一类,记为因此,(2)用重心法进行聚类分析计算样品间平方距离阵 0 1 0 4 1 0 25 16 9 0 64 49 36 9 0 100 81 64 25 4 0易知 中最小元素是 于是将,聚为一类,记为计算距离阵 0 16 0 49 9 0 81 25 4 0 注:计算方法,其他以此类推。中最小元素是=4 于是将,聚为一类,记为计算样本距离阵 0 16 0 64 16
9、 0中最小元素是 于是将,聚为一类,记为因此,第六章6.1 试述主成分分析的基本思想。答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取更多信息时,再考虑第二个线性组合。继续这个过程,直到提取的信息与原指标差不多时为止。这就是主成分分析的基本思想。6.2 主成分分析的作用体现在何处?答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”的同时又保留了原数据的大部分信息。6.6
10、已知X=()的协差阵为 试进行主成分分析。解:=0计算得当时, 同理,计算得 时,易知相互正交单位化向量得, ,综上所述,第一主成分为 第二主成分为 第三主成分为 6.7 设X=()的协方差阵(p为 , 0p1证明:为最大特征根,其对应的主成分为 。证明:= , 为最大特征根当时,= 所以,第七章7.1 试述因子分析与主成分分析的联系与区别。答:因子分析与主成分分析的联系是:两种分析方法都是一种降维、简化数据的技术。两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分
11、分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。7.3 简述因子模型中载荷矩阵A的统计意义。 答:对于因子模型 因子载荷阵为与的协方差为:=若对作标准化处理,=,因此 一方面表示对的依赖程度;另一方面也反映了变量对公共因子的相对重要性。变量共同度 说明变量的方差由两部分组成:第一部分为共同度,它描述了全部公
12、共因子对变量的总方差所作的贡献,反映了公共因子对变量的影响程度。第二部分为特殊因子对变量的方差的贡献,通常称为个性方差。而公共因子对的贡献表示同一公共因子对各变量所提供的方差贡献之总和,它是衡量每一个公共因子相对重要性的一个尺度。7.4 在进行因子分析时,为什么要进行因子旋转?最大方差因子旋转的基本思路是什么?答:因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合理解释。但有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。这种因子模型反而是不利于突出主要矛盾和矛盾的主要方面的,也很难对因子的实际背景进行合理的解释。这时需要通过因子旋转的方法,使每个变量仅在一个公共因子
13、上有较大的载荷,而在其余的公共因子上的载荷比较小。最大方差旋转法是一种正交旋转的方法,其基本思路为:A其中令 的第列元素平方的相对方差可定义为最大方差旋转法就是选择正交矩阵,使得矩阵所有m个列元素平方的相对方差之和达到最大。7.5 试分析因子分析模型与线性回归模型的区别与联系。答:因子分析模型是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法的模型。而线性回归模型回归分析的目的是设法找出变量间的依存(数量)关系, 用函数关系式表达出来。因子分析模型中每一个变量都可以表示成公共因子的线性函数与特殊因子之和。即,() 该模型可用矩阵表示为: 而回归分析模型中多元线性回归方程模型
14、为: 其中是常数项,是偏回归系数,是残差。 因子模型满足:(1); (2),即公共因子与特殊因子是不相关的;(3),即各个公共因子不相关且方差为1;(4),即各个特殊因子不相关,方差不要求相等。而回归分析模型满足(1)正态性:随机误差(即残差)e服从均值为 0,方差为s的正态分布;(2)等方差:对于所有的自变量x,残差e的条件方差为s ,且s为常数;(3)独立性:在给定自变量x的条件下,残差e的条件期望值为0(本假设又称零均值假设);(4)无自相关性:各随机误差项e互不相关。两种模型的联系在于都是线性的。因子分析的过程就是一种线性变换。7.6 设某客观现象可用X=()来描述, 在因子分析时,从
15、约相关阵出发计算出特征值为 由于,所以找前两个特征值所对应的公共因子即可, 又知对应的正则化特征向量分别为(0.707,-0.316,0.632)及(0,0.899,0.4470),要求:(1)计算因子载荷矩阵A,并建立因子模型。(2)计算共同度。(3)计算第一公因子对X 的“贡献”。解:(1)根据题意,A=建立因子模型为 (2) (3)因为是从约相关阵计算的特征值,所以公共因子对X的“贡献”为。第九章 典型相关分析9.1 什么是典型相关分析?简述其基本思想。 答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变量之间的内在联系。典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。 基本思想:(1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。即:若设、是两组相互关联的随机变量,分别在两组变量中选取若干有代表性的综合变量Ui、Vi,使是原变量的线性组合。在的条件下,使得达到最大。(2)选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。(3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。-