《2022年实用多元统计分析相关习题 .pdf》由会员分享,可在线阅读,更多相关《2022年实用多元统计分析相关习题 .pdf(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、练习题一、填空题1人们通过各种实践,发现变量之间的相互关系可以分成(相关) 和(不相关) 两种类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相关系数。2总离差平方和可以分解为(回归离差平方和) 和(剩余离差平方和) 两个部分,其中(回归离差平方和) 在总离差平方和中所占比重越大,则线性回归效果越显著。3回归方程显著性检验时通常采用的统计量是(SR/p)/SE/(n-p-1)。4偏相关系数是指多元回归分析中, (当其他变量固定时,给定的两个变量之间的)的相关系数。5Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归 )等。6 主成分分析是通过
2、适当的变量替换,使新变量成为原变量的 (线性组合),并寻求(降维)的一种方法。7主成分分析的基本思想是 (设法将原来众多具有一定相关性(比如P 个指标) ,重新组合成一组新的互相无关的综合指标来替代原来的指标)。8主成分表达式的系数向量是(相关系数矩阵) 的特征向量。9样本主成分的总方差等于(1) 。10在经济指标综合评价中, 应用主成分分析法, 则评价函数中的权数为 (方差贡献度) 。主成分的协方差矩阵为 (对称) 矩阵。主成分表达式的系数向量是(相关矩阵特征值)的特征向量。11SPSS中主成分分析采用 (analyzedata reductionfacyor)命令过程。12因子分析是把每个
3、原始变量分解为两部分因素,一部分是(公共因子),另一部分为(特殊因子)。13变量共同度是指因子载荷矩阵中(第 i 行元素的平方和 ) 。14公共因子方差与特殊因子方差之和为(1) 。15聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏程度)进行科学的分类。16Q 型聚类法是按 (样品) 进行聚类, R 型聚类法是按 (变量) 进行聚类。17Q 型聚类统计量是 (距离),而 R 型聚类统计量通常采用 (相关系数)。18六种 Q 型聚类方法分别为 (最长距离法)、 (最短距离法)、 (中间距离法)、 (类平均法) 、 (重心法)、 (离差平方和法)。19快速聚类在 SPSS中
4、由(k-均值聚类 (analyze classifyk means cluster) )过程实现。20判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。21用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。22进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有(Fisher 准则) 、 (贝叶斯准则) 。23类内样本点接近,类间样本点疏远的性质,可以通过(类与类之间的距离) 与(类内样本的距离) 的大小差异表现出来,而两者的比值能把不同的类区别开来。这个比值越大,说明类与类间
5、的差异越(类与类之间的距离越大) ,分类效果越 (好 ) 。24Fisher 判别法就是要找一个由p 个变量组成的 (线性判别函数) ,使得各自组内点的精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 8 页1 (离差)尽可能接近,而不同组间点的尽可能疏远。二、简答题1、简述复相关系数与偏相关系数。答:复相关系数:又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。偏相关系数:又叫部分相关系数。部分相关系数反映校正其它变量后某一变量与另一变量的相关关系。偏
6、相关系数是指多元回归分析中,当其他变量固定后,给定的两个变量之间的的相关系数。偏相关系数的假设检验等同于偏回归系数的t 检验。复相关系数的假设检验等同于回归方程的方差分析。2、简述逐步回归分析方法的具体实施步骤。答:逐步回归过程如下:1)自变量的剔除;2)重新进行少一个自变量的多元线性回归分析;3)重新进行多一个自变量的多元线性回归分析;4)重新进行上述步骤,直至无法再删除和再引入自变量为止。3、提取样本主成分的原则。答:主成分个数提取原则为主成分对应的特征值大于1 的前 m 个主成分。特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直
7、接引入一个原变量的平均解释力度大,因此,一般可以用特征值大于1 作为纳入标准。4、简述系统聚类法的基本思想及主要步骤。答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。系统聚类过程是:假设总共有n 个样品(或变量) ,第一步将每个样品(或变量)独自聚成一类,共有 n 类;第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n 1 类;第三步将“距离”最近的两个类进一步聚成一类,共聚成n 2类;,以上步骤一直进行下去,最后将所有的样品
8、(或变量)全聚成一类,也简称聚集法。还有与以上方法相反的称分解法。5、简述快速聚类( k均值聚类)的基本思想及主要步骤。答:基本思想:1.一个样品分配给最近中心(均值)的类中,将所有样品分成k 个初始类。 2.通过欧式距离将每个样品划入离中心最近的类中,并对得到样品或失去样品的类重新计算中心坐标。3.重复步骤 2,直到所有样品都不能再分配时为止。6、判别分析的分类。答:判别分析是多元统计分析中用于判别样本所属类型的一种统计分析方法。判别分析按判别的组数来分,有两组判别分析和多组判别分析;按区分不同总体所用的数学模型来分,有线性判别和非线性判别;按判别对所处理的变量方法不同,有逐步判别、序贯判别
9、等;按判别准则不同,有距离判别、贝叶斯判别(Bayes) 、费歇( Fisher)判别等。7、简述 Fisher 判别规则及具体判别步骤。答: Fisher 判别法的基本思想:从多个总体(类)抽取一定的样本,借助方差分析的思想,建立p个指标的线性判别函数,把待判样品代入线性判别函数,然后与临界值比较,就可判样品属于哪个类。Fisher 判别法的具体算法步骤:由Fisher 线性判别式MMS211*求解向量*的步骤: 把来自两类21训练样本集X 分成1和2两个子集X1 和 X2。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 2 页,共 8 页2 由
10、2, 1,1iIXnMXxikki,计算Mi。 由TikikXxikMxMXSi计算各类的类内离散度矩阵Si,i=1,2 。 计算类内总离散度矩阵SSS21。 计算S的逆矩阵S1。 由MMS211*求解*。三、计算题1.现收集了 92组合金钢中的碳含量x 及强度 y,且求得:03.29415126.263019.07989.45,1255.0yyxyxxLLLyx(1)求 y 关于 x 的一元线性回归方程;(2)求 y 与 x 的相关系数;(3)列出对方程作显著性检验的方差分析表;(4)在 x=0.1 时,求y ?的点估计。精选学习资料 - - - - - - - - - 名师归纳总结 - -
11、 - - - - -第 3 页,共 8 页3 2. 某地区通过一个样本容量为722 的调查数据得到劳动力受教育年数的一个回归方程为10.360.0940.1310.210iiiiedusibsmedufedu20. 2 1 4R式中,edu为劳动力受教育年数, sibs为劳动力家庭中兄弟姐妹的个数,medu与fedu分别为母亲与父亲受到教育的年数。问(1) 若m e d u与fedu保持不变,为了使预测的受教育水平减少一年, 需要 sibs增加多少?(2)请对 medu的系数给予适当的解释。(3)如果两个劳动力都没有兄弟姐妹,但其中一个的父母受教育的年数均为12 年,另一个的父母受教育的年数均
12、为16 年,则两人受教育的年数预期相差多少年精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页,共 8 页4 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 5 页,共 8 页5 3下表给出一二元模型的回归结果。方差来源平方和( SS)自由度( d.f.)来自回归 (ESS) 65965 来自残差 (RSS) 总离差 (TSS) 66042 14 求: (1)样本容量是多少? RSS是多少? ESS和 RSS的自由度各是多少?(2)2R 和2R?(3)检验假设:解释变量总体上对Y 有无影响。你用什么
13、假设检验?为什么?4在一项研究中,测量了376 只鸡的骨骼,并利用相关系数矩阵进行主成分分析,见下表:Y1 Y2 Y3 Y4 Y5 Y6 头长 x1 头宽 x2 肱骨 x3 尺骨 x4 股骨 x5 胫骨 x6 0.35 0.33 0.44 0.44 0.43 0.44 0.53 0.70 0.19 0.25 0.28 0.22 0.76 -0.64 -0.05 -0.02 -0.06 -0.05 -0.05 0.00 0.53 0.48 0.51 0.48 -0.04 0.00 0.19 0.15 0.67 0.70 0.00 0.04 0.59 0.63 0.48 0.15 特征值4.57
14、0.71 0.41 0.17 0.08 0.06 (1) 计算前三个主成分各自的贡献率和累积贡献率。(2) 对于 y4,y5,y6 的方差很小这一点,你怎样对实际情况作出推断。解:精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 6 页,共 8 页6 5在一项对杨树的性状的研究中,测定了20 株杨树树叶,每个叶片测定了四个变量:叶长(x1),2/3 处宽(x2),1/3 处宽(x3),1/2 处宽(x4)。这四个变量的相关系数矩阵的特征根和标准正交特征向量分别为:)7930.0,5513.0,2519.0,0612.0(007.0)1624.0,55
15、89.0,7733.0,2516.0(049.0)0824.0 ,2695.0,0984.0,9544.0(024.1)5814.0,5577.0,5735.0,1485.0(920.244332211UUUU写出四个主成分,计算它们的贡献率。解:各自的主成分为:Z1=0.1485X1-0.5735X2-0.5577X3-0.5814X4 Z2=0.9544X1-0.0984X2+0.2695X3+0.0824X4Z3=0.2516X1+0.7733X2-0.5589X3-0.1624X4Z4=-0.0612X1+0.2519X2+0.5513X3-0.7930X4 则各自的贡献率为:W1=2
16、.920/(2.920+1.024+0.049+0.007)=0.73 W2=1.024/(2.920+1.024+0.049+0.007)=0.256 W2=0.049/(2.920+1.024+0.049+0.007)=0.01225 W2=0.007/(2.920+1.024+0.049+0.007)=0.00175 6对纽约股票市场上的五种股票的周回升率x1,x2,x3,x4,x5 进行了主成分分析,其中x1,x2,x3 分别表示三个化学工业公司的股票回升率,x4,x5 表示两个石油公司的股票回升率,主成分分析是从相关系数矩阵出发进行的,前两个特征根和对应的标准正交特征向量为:)582
17、.0,526.0,260.0,509.0 ,240. 0(809.0)421. 0,421.0,470.0,457.0,464. 0(857.22211UU(1) 计算这两个主成分的方差贡献率。解:各自的主成分为:Z1=0.464X1+0.457X2+0.470X3+0.421X4+0.421X5Z2=0.240X1+0.509X2+0.260X3-0.526X4-0.582X5 则各自的贡献率为:W1=2.587/(2.587+0.809)=0.762 W2=0.809/(2.587+0.809)=0.238 (2) 能否对这两个主成分的意义作一个合理的解释,并给两个主成分命名。答:解释:由
18、 SPSS抽取的两个主成分, 其特征值分别为 2.857和 0.809,。根据主成分分析得知:各自的贡献率为W1=76.2%,W2=23.8%。由此可知,第一个主成分对变量(股票回升率)影响较大。命名:一、化学工业公司股票回升率二 、石油公司股票回升率7、下面给出了八个样品的两个指标数据1 2 3 4 5 6 7 8 样指标精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 7 页,共 8 页7 X1 X2 2 4 4 7 0 13 1 12 3 9 5 11 2 14 3 16 使用按动态聚类法进行聚类,采用欧氏距离(取 1、3、7 号样本为聚点 )
19、。解:四、上机操作会进行回归、聚类、因子、主成分、判别分析基本操作,上级题目随机抽取。请指出下面 SPSS软件操作分别代表多元统计分析中什么分析:(1)AnalysisRegression Linear regression 回归分析(2)AnalysisClassifyHierachical Cluster 系统聚类分析聚类分析(3)AnalysisClassifyKmean Cluster K-均值聚类分析(4)AnalysisData ReductionFactor 因子分析(5)AnalysisData ReductionFaactor 主成分分析(6)AnalysisClassifyDiscriminant 判别分析精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 8 页,共 8 页