多元统计分析及R语言建模考试试卷(14页).docx-淘文阁

资源描述

《多元统计分析及R语言建模考试试卷(14页).docx》由会员分享，可在线阅读，更多相关《多元统计分析及R语言建模考试试卷(14页).docx（14页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、-多元统计分析及R语言建模考试试卷-第 14 页多元统计分析及R语言建模考试试卷教师填写课程名称：_多元统计分析 _授课教师姓名：_王斌会_ 考试时间:_ _年_月_日课程类别必修选修考试方式开卷闭卷试卷类别(A、B) A 共 8 页考生填写学院(校) 专业班(级)姓名学号题号一二三四五六七八九十总分得分得分评阅人一、简答题（共5小题，每小题6分，共30分）1. 常用的多元统计分析方法有哪些？（1）多元正态分布检验（2）多元方差-协方差分析（3）聚类分析（4）判别分析（5）主成分分析（6）因子分析（7）对应分析（8）典型相关性分析（ 9）定性数据建模分析（10）路径分析（

2、又称多重回归、联立方程）（11）结构方程模型（12）联合分析（13）多变量图表示法（14）多维标度法2. 简单相关分析、复相关分析和典型相关分析有何不同？并举例说明之。简单相关分析：简单相关分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度，是研究随机变量之间的相关关系的一种统计方法。例如，以X、Y分别记小学生的数学与语文成绩，感兴趣的是二者的关系如何，而不在于由X去预测Y。复相关分析；研究一个变量 x0与另一组变量 (x1,x2,，xn)之间的相关程度。例如,职业声望同时受到一系列因素（收入、文化、权力）的影响，那么这一系列因素的总和与职业声望之

3、间的关系，就是复相关。复相关系数R0.12n的测定，可先求出 x0对一组变量x1，x2，xn的回归直线，再计算x0与用回归直线估计值悯之间的简单直线回归。复相关系数为R0.12n的取值范围为0R0.12n1。复相关系数值愈大，变量间的关系愈密切。典型相关分析就是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它的基本原理是：为了从总体上把握两组指标之间的相关关系，分别在两组变量中提取有代表性的两个综合变量U1和V1（分别为两个变量组中各变量的线性组合），利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。3. 试说明主成分分析和因子分析不同点和相同之处

4、。主成分分析和因子分析的相同之处1.都可以降维、分析多个变量的基本结构2.因子分析是主成分分析的进一步推广。主成分分析可被视为一种固定效应的因子分析，是因子分析的特列3.都是利用变量之间的相关性将它们进行分类4.主成分分析中，各个主成分之间互不相关；因子分析中，公因子之间不相关、特殊因子之间不相关、公因子与特殊因子之间不相关主成分分析和因子分析的区别1、因子分析中是把变量表示成各因子的线性组合，而主成分分析中则是把主成分表示成个变量的线性组合。2、主成分分析的重点在于解释个变量的总方差，而因子分析则把重点放在解释各变量之间的协方差。3、主成分分析中不需要有假设(assumptions),因子

5、分析则需要一些假设。因子分析的假设包括：各个共同因子之间不相关，特殊因子（specificfactor）之间也不相关，共同因子和特殊因子之间也不相关。4、主成分分析中，当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候，的主成分一般是独特的；而因子分析中因子不是独特的，可以旋转得到不同的因子。1、因子分析中是把变量表示成各因子的线性组合，而主成分分析中则是把主成分表示成个变量的线性组合。4. 判别分析以及Fisher判别和Bayes判别的基本思想是什么？判别分析：根据判别中的组数，可以分为两组判别分析和多组判别分析；根据判别函数的形式，可以分为线性判别和非线性判别；根据判别式处理变量的方法不同

6、，可以分为逐步判别、序贯判别等；根据判别标准不同，可以分为距离判别、Fisher判别、Bayes判别法等Fisher判别法；通过将多维数据投影到某一方向上，使得投影之后类与类之间尽可能分开，然后再寻找合适的判别准则。Bayes判别法：假设已知对象的先验概率和“先验条件概率”,而后得到后验概率,由后验概率作出判别。5. 指出综合评价中指标的标准化方法及其优缺点和有哪些综合评价方法。标准化方法(1)主成分分析法。主成分分析是多元统计分析的一个分支。是将其分量相关的原随机向量，借助于一个正交变换，转化成其分量不相关的新随机向量，并以方差作为信息量的测度，对新随机向量进行降维处理。再通过构造适当的价值

7、函数，进一步做系统转化。(2)数据包络分析法。它是创建人以其名字命名的DEA模型CR模型。DEA法不仅可对同一类型各决策单元的相对有效性做出评价与排序，而且还可进一步分析各决策单元非DE有效的原因及其改进方向，从而为决策者提供重要的管理决策信息。(3)模糊评价法。模糊评价法奠基于模糊数学。它不仅可对评价对象按综合分值的大小进行评价和排序，而且还可根据模糊评价集上的值按最大隶属度原则去评定对象的等级。综合评价方法1、计分法2、综合指数法3、Topsis法 4、秩和比(RSR)法5、层次分析(AHP)法6、模糊评价方法7、多元统计分析方法8、灰色系统评价方法得分评阅人二、证明题（共1小题，共20分

8、）设 y = a1x1+ a2x2 +apxp a x，其中a = (a1，a2，ap)，x = (x1，x2，xp)，求主成分就是寻找x的线性函数a x使相应的方差达到最大，即Var(a x) = a S a 达到最大，且a a =1，此处S为x的协方差阵。设的特征根为。试证明下面性质：（1）y=Ux，UU=I，这里U为x的协方差阵的特征向量（单位化的）组成的正交阵。（2）y的各分量之间是互不相关的。（3）y的p个分量是按方差大小、由大到小排列的。（4）y的协方差阵为对角阵。（5），这里 S = (sii)pp（6）证明（1）（2）（3）：设的特征向量为U= (u1，u2，up)，则UU=

9、I，即U为一正交阵，且S= UU= U diag()U=uiui因此a S a=a uiui a=(a ui) (aui)= (a ui)2于是a S a(a ui)2=(a U) (a U)= a UUa=a a=应取时，u1 S u1= u1 u1=故y1= u x就是第一主成分，其方差最大，Var(y1) = Var(u1 x) =同理，Var(yi) = Var(ui x) =另外，Cov(yi, yj)= Cov(ui x, uj x)= ui S uj= ui uj= ui uj=0，ij因此，有上述可得变量x的主成分是以S的特征向量为系数的线性组合，且主成分y之间互不相关，y的p

10、个分量是按方差大小、由大到小排列的。性质（1）（2）（3）得证。性质（4）可有（1）（2）（3）得到。证明性质（5）：由U=，则有S= UU于是=tr(S)=tr(UU)= tr(UU)= tr()=证明性质（6）：（6）由前面的证明得知令ej=()为单位向量，则xj= ejx，yi= ui x所以，Cov(yi, xj)= Cov(ui x, ejx)= ejD(x) ui= ejS ui= ej ui= uij故性质（6）得证得分评阅人三、运算题（共3小题，共20分）下面左表为五个观察值，两个变量的数据，右表为用欧氏距离计算的距离矩阵，x1x21572713324655661. （10分

11、）写出用R语言分析的命令 (1) 请将数据x1和x2写入R向量中：x1=c(5,7,3,6,6);x1x2=c(7,1,2,5,6);x2 (2) 写出绘制上面散点图的R命令：x1=c(5,7,3,6,6);x1x2=c(7,1,2,5,6);x2plot(x1,x2) (3) 写出绘制系统聚类图的R命令： X=data.frame(x1,x2);XD=dist(X,diag=TRUE,upper=TRUE);Dhc=hclust(D,complete);hcplot(hc)2（5分） (1) 写出计算下面绝对距离阵的R命令：x1=c(5,7,3,6,6)x2=c(7,1,2,5,6)X=da

12、ta.frame(x1,x2);XD=dist(X,diag=TRUE,upper=TRUE,p=1);D1 2 3 4 51 0 8 7 3 22 8 0 5 5 63 7 5 0 6 74 3 5 6 0 15 2 6 7 1 0（2）试在图中标出这些距离3.（5分）试用最长距离法对其进行聚类分析，画出聚类图，并按二类、三类进行分类第一步：计算距离阵X=data.frame(x1,x2);XD=dist(X,diag=TRUE,upper=TRUE);D第二步：进行系统聚类（最长距离法）hc=hclust(D,complete);hc第三步：画出聚类图（1）按二类进行分类plot(hc);

13、 rect.hclust(hc,2)（2）按三类进行分类plot(hc); rect.hclust(hc,3)得分评阅人四、案例分析题（共2小题，共30分）我们知道，财政收入与国民生产总值和税收等经济指标有密切的依存关系。今收集了我国改革开放以来财政收入(y：百亿元)，国民生产总值 (x1:百亿元)，税收(x2:百亿元)，进出口贸易总额(x3:百亿元)，经济活动人口(x4:百万人)的部分数据，见下表所示，分析财政收入和国民生产总值、税收、进出口贸易总额、经济活动人口之间的关系。表1 财政收入多因素分析数据yx1x2x3x4199131.4948216.62529.901772.258660.

14、91199234.8337266.51932.969191.196667.82199343.4895345.60542.553112.710674.68199452.1810466.70051.2688203.819681.35199562.4220574.94960.3804234.999688.55199674.0799668.50569.0982241.338697.65199786.5114731.42782.3404269.672708.00199898.7595769.67292.628268.577720.871999114.4408805.794106.8258298.9637

15、27.912000133.9523882.281125.8151392.742739.922001163.8604943.464153.0138421.933744.322002189.03641203.327176.3645513.782753.602003217.15251358.228200.1731704.835760.752004263.96471598.783241.6568955.391768.232005316.49291832.174287.78541169.218778.772006387.60202119.235348.04351409.714782.442007513.

16、21782495.299456.21971667.402786.452008613.30353006.700542.19621778.8983790.481. 基本统计分析和R语言命令（15分）(1) 如果将该数据存入到一个文本文件reg.txt中，写出将该文本数据读入数据框dat中的R命令：dat=read.table(reg.txt,header=T) (1分)(2) 如果将该数据拷贝到剪切板中，写出将该数据读入数据框dat中的R命令：dat=read.table(clipboard,header=T) (1分)(3) 写出提取2000年数据的R命令： dat10, (1分)写出提取税收(

17、x2)数据的R命令： dat,5 (1分)写出提取2001年至2008年经济活动人口(x4)数据的R命令：dat11:18,5 (1分)(4) 写出计算财政收入统计量的R命令： summary(y) (2分) Min. 1st Qu. Median Mean 3rd Qu. Max. 31.49 65.34 124.20 188.70 252.30 613.30(5) 写出计算下面相关阵R命令： cor(dat) (2分) y x1 x2 x3 x4y 1.0000 0.9924 0.9999 0.9874 0.8736x1 0.9924 1.0000 0.9938 0.9883 0.9126

18、 x2 0.9999 0.9938 1.0000 0.9881 0.8811x3 0.9874 0.9883 0.9881 1.0000 0.8807x4 0.8736 0.9126 0.8811 0.8807 1.0000(6) 写出计算下面回归系数的R命令：fm=lm(yx1+x2+x3+x4,data=dat);fm (2分)Coefficients:(Intercept) x1 x2 x3 x4 84.62030 0.00207 1.16908 -0.00305 -0.13391(7) 写出计算下面检验的R命令： summary(fm) (2分)Coefficients: Estima

19、te Std. Error t value Pr(|t|) (Intercept) 84.62030 12.74442 6.64 1.6e-05 *x1 0.00207 0.00491 0.42 0.68 x2 1.16908 0.02113 55.32 2e-16 *x3 -0.00305 0.00367 -0.83 0.42 x4 -0.13391 0.01969 -6.80 1.3e-05 *Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 Residual standard error: 1.18 on 13 degrees of freed

20、omMultiple R-squared: 0.999, Adjusted R-squared: 0.998 F-statistic: 8.87e+04 on 4 and 13 DF, p-value: |t|) (Intercept) 82.10361 9.04442 9.078 1.76e-07 *x2 1.16768 0.00385 303.331 2e-16 *x4 -0.12945 0.01318 -9.818 6.36e-08 *Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 Residual standard error: 1.126

21、 on 15 degrees of freedomMultiple R-squared: 1, Adjusted R-squared: 1 F-statistic: 1.942e+05 on 2 and 15 DF, p-value: 2.2e-162. 在上面计算的基础上进行进一步分析(15分)(1) 试问该回归方程有无统计学意义，为什么？(2分)由F检验结果可知，P值小于0.5，于是在0.05的显著性水平上拒绝原假设，所以认为整个回归方程有统计学意义。 (2) 该模型的复相关系数、决定系数、调整复相关系数平方和剩余标准差(3分)复相关系数：0.9994决定系数：0.999调整复相关系数平方

22、：0.998剩余标准差：1.18(3) 由于方程的P0.001，能否说明每个自变量都有显著作用，为什么？(3分)整个方程的统计学意义判定可以由F检验得知，每一个自变量的显著性应由t检验得到。故由t检验结果可知，偏回归系数b2和b4的P值小于0，可认为解释变量税收x2、经济活动人口x4,显著；b1和b3的P值大于0.5，不能否定解释变量系数为0的假设，可以认为国内生产总值x1、进出口贸易总额x3对财政收入没有影响。 (4) 本例是用何种方法做的回归分析，你认为应该用什么方法为好？(3分)本例是采用全部子集法，应该采用逐步回归法 (5) 预测：试用该方程对来年的财政收入进行预测，已知：x1=3100(百亿元), x2=560(百亿元), x3=1900(百亿元), x4=800(万人)，试写出预测其结果的R语句并用建立的模型计算预测结果。(4分)R语句：predict(fm,data.frame(x1=3100,x2=560,x3=1900,x4=800)预测结果：632.4478

展开阅读全文