《应用统计学》期末复习试题(A)及答案.docx-淘文阁

资源描述

《《应用统计学》期末复习试题(A)及答案.docx》由会员分享，可在线阅读，更多相关《《应用统计学》期末复习试题(A)及答案.docx（18页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、应用统计学期末复习试题(A)及答案华东理工高校 2005–2006 学年其次学期应用统计学课程期末考试试卷A2006.6开课学院：商学院，专业：考试形式：开卷，所需时间：120分钟考生姓名：学号：班级：任课老师：题序一二三四五总分得分评卷人一、棉结粒数问题（20 分）在梳棉机上纺粘棉混纺纱，为提高质量，削减棉结粒数，考察如下因子水平：表 1棉结粒数问题的因子水平因子一水平二水平 A：金属针布日本产青岛产 B：产量水平（kg）6 10 C：锡林速度（转/分）238 320 且考虑交互作用 A×C。用 L 8 ( 2 7 )支配

2、试验，将因子 A，B，C 分别置于第 1，2，4 列上，测得 8次试验结果（棉结粒百分数）分别为 0.30，0.35，0.20，0.30，0.15，0.50，0.15，0.40。经 SPSS 软件的计算，列表如下，请依据计算结果进行分析。表 2 ANOVA Dependent Variable: 棉结粒百分数Source Type III Sum of Squares df Mean Square F Sig. A 0.001 1 0.001 1 0.638 B1 0.008 8 0.080 C 0.070 1 0.0700.004 A * C 0.025 125 0.018 Error 0.

3、003 3 0.001 Corrected Total 0.107 7 a R Squared = 0.968 (Adjusted R Squared = 0.925) 表 3 Estimated Marginal Means 金属针布 ADependent Variable: 棉结粒百分数金属针布 Mean Std. Error 95% Confidence Interval Lower Bound Upper Bound 日本产 0.288 0.017 0.234 0.341 青岛产 0.300 0.017 0.246 0.354产量水平B Dependent Variable: 棉结粒百

4、分数产量水平 Mean Std. Error 95% Confidence Interval Lower Bound Upper Bound 6kg 0.325 0.017 0.271 0.379 10kg 0.262 0.017 0.209 0.316锡林速度 C Dependent Variable: 棉结粒百分数锡林速度 Mean Std. Error 95% Confidence Interval Lower Bound Upper Bound 238转/分 0.200 0.017 0.146 0.254 320转/分 0.387 0.017 0.334 0.441金属针布 * 锡林速

5、度A ×C Dependent Variable: 棉结粒百分数金属针布锡林速度 Mean Std. Error 95% Confidence Interval Lower Bound Upper Bound 日本产 238转/分 0.250 0.024 0.174 0.326 320转/分 0.325 0.024 0.249 0.401 青岛产 238转/分 0.150 0.024 0.074 0.226 320转/分 0.450 0.024 0.374 0.526 （1）请完成表头设计。（2）表2中有些数据没给出，请依据方差分析表的原理将其计算出来，给出计算过程。（3）由

6、表2分析哪些因子在什么显著性水平下是显著的，给出理由。（4）由表2和表3找出最优生产条件，给出理由。二、食品问题（20 分）现有六种食品，为了对此六种食品的养分状况进行分类，今对每种食品测出了能量、脂肪和含钙量三类指标数据，如下表：表 4六种食品的养分指标数据养分指标食品种类能量1x脂肪2x含钙量3x1 5 9 20 2 6 11 2 3 4 5 20 4 6 9 46 5 5 7 1 6 3 1 12用系统聚类法对此问题进行了分类，聚类结果见下面图表。表5Case Processing Summary(a,b)Cases Valid Missing Total N Percent N

7、Percent N Percent 6 100.0 0 .0 6 100.0 a Euclidean Distance used b Average Linkage (Between Groups)图 1 食品问题聚类（1）由表 5，请写出此聚类问题分析中样品间实行何种距离以及实行何种系统聚类的方法。（2）由图 1，若将此六种食品分成三类，应当如何进行分类，并给出每类的特性。三、城镇居民月平均收入问题（20 分）1991 年全国各省、直辖市城镇居民月平均收入状况见表 6，1x 表示人均生活费收入（元/人），2x 表示人均各种津贴（元/人），111 号省份为第一类1G ；1222 号省份为

8、其次类2G ；2328 号省份为第三类3G 。表 61991 年全国 29 个省、直辖市城镇居民月平均收入 1G2G3G序号省市名 1x2x序号省市名 1x2x序号省市名 1x2x1 北京 170.03 16.44 12 山西 102.49 7.90 23 辽宁 128.46 12.42 2 天津 141.55 12.36 13 内蒙古 106.14 20.10 24 江苏 135.24 9.661 3 河北 119.40 11.79 14 吉林 104.93 20.61 25 浙江 162.53 10.90 4 上海 194.53 21.01 15 黑龙江 103.34 10.19 2

9、6 安徽 111.77 9.698 5 山东 130.46 12.14 16 江西 98.089 16.50 27 福建 139.09 16.47 6 湖北 119.29 16.47 17 河南 104.12 10.43 28 湖南 124.00 20.49 7 广西 134.46 26.12 18 贵州 108.49 16.53 8 湖南 143.79 29.49 19 陕西 113.99 9.492 待判广东 211.30 30.77 9 四川 128.05 10.18 20 甘肃 114.06 16.43 10 云南 127.41 21.20 21 青海 108.80 18.98 11

10、新疆 122.96 18.96 22 宁夏 115.96 22.65利用 SPSS 软件对此问题进行分析的结果见下表：表7 Eigenvalues Function Eigenvalue % of Variance Cumulative % Canonical Correlation 1 0.847(a) 89.2 89.2 0.677 2 0.102(a) 10.8 100.0 0.304 a First 2 canonical discriminant functions were used in the analysis.表8Group Statistics 类别Valid N (l

11、istwise) Unweighted Weighted 第一类人均生活费收入（元/人）11 11.000 人均各种津贴（元/人）11 11.000 其次类人均生活费收入（元/人）11 11.000 人均各种津贴（元/人）11 11.000 第三类人均生活费收入（元/人）6 6.000 人均各种津贴（元/人）6 6.000 Total 人均生活费收入（元/人）28 28.000 人均各种津贴（元/人）28 28.000表9 Canonical Discriminant Function CoefficientsFunction 1 2 人均生活费收入（元/人）0.059 -0.008 人

12、均各种津帖（元/人）-0.008 0.186 (Constant) -7.298 -2.009 Unstandardized coefficients 表10 Classification Function Coefficients 类别第一类其次类第三类人均生活费收入（元/人）0.462 0.353 0.451 人均各种津贴（元/人）0.353 0.331 0.206 (Constant) -36.445 -22.597 -32.544 Fishers linear discriminant functions 表11Classification Results (b) 类别 Pre

13、dicted Group Membership Total 第一类其次类第三类 Original Count 第一类 6 1 4 11 其次类 0 11 0 11 第三类 2 1 3 6 % 第一类 54.5 9.1 36.4 100.0 其次类 .0 100.0 .0 100.0 第三类 33.3 16.7 50.0 100.0 a Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions deri

14、ved from all cases other than that case. b 71.4% of original grouped cases correctly classified.（ 1 ）请解释 UnstandardizedStandardized canonical discriminant function 与 Fishers linear discriminantfunctions的差异所在。（2）请建立此问题的Canonical Discriminant Function(判别函数)。（3）请依据表 6 的数据，运用表 10 判别广东的城镇居民月平均收入状况分别属

15、于哪类，并说明理由。（4）对此判别问题的误判率进行分析。四、中学生体型分析（20 分）对 10 名男中学生的身高（1x ）、胸围（2x ）和体重（3x ）进行测量，得数据见表 12 所示。对其做主成分分析。表 1210 名男中学生的身高、胸围及体重数据序号身高1x （cm）胸围2x （cm）体重3x （kg）1 149.5 69.5 38.5 2 162.5 77.0 55.5 3 162.7 78.5 50.8 4 162.2 87.5 65.5 5 156.5 74.5 49.0 6 156.1 74.5 45.5 7 172.0 76.5 51.0 8 173.2 81.5 59

16、.5 9 159.5 74.5 43.5 10 157.7 79.0 53.5经 SPSS 软件计算的结果如下：表13CommunalitiesInitial Extraction 身高（cm）1.000 1.000 胸围（cm）1.000 0.979 体重（cm）1.000 0.976 Extraction Method: Principal Component Analysis.表14 Total Variance ExplainedComponent Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums

17、 of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative % 1 2.421 80.687 80.687 2.421 80.687 80.687 1.857 61.915 61.915 2 0.534 17.809 98.496 0.534 17.809 98.496 1.097 36.582 98.496 3 0.045 1.504 100.000 Extraction Method: Principal Compo

18、nent Analysis. 表15Component Matrix (a)Component 1 2 身高（cm）0.775 0.631 胸围（cm）0.943 -0.299 体重（cm）0.964 -0.215 Extraction Method: Principal Component Analysis. a2 components extracted. 表16Rotated Component Matrix (a) Component 1 2 身高（cm）0.304 0.952 胸围（cm）0.953 0.265 体重（cm）0.925 0.346 Extraction Method:

19、 Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. aRotation converged in 3 iterations.表17Component Transformation Matrix Component 1 2 1 0.838 0.546 2 -0.546 0.838 Extraction Method: Principal Component Analysis.Rotation Method: Varimax with Kaiser Normalization. 表18

20、Component Score Coefficient MatrixComponent 1 2 身高（cm）-0.377 1.165 胸围（cm）0.632 -0.255 体重（cm）0.554 -0.120 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.依据 SPSS 供应的结果，回答下列问题: （1）在主成分分析中，对拟提取的 m 个主成分的两条基本要求是什么。（2）请写出前两个特征值及其对应主成分的贡献率。（3）能否对未经旋转的主成分

21、与旋转后的因子作比较，对这两个旋转后的因子的意义作一个合理的说明，并给两个因子命名。（4）请指出这里的因子分析所采纳的方法。（5）依据因子得分系数矩阵，请写出所提取的两个因子的数学表达式。五、简答题（20 分）（1）简要说明偏差平方和分解的方法在双因素无交互作用方差分析和回来分析的运用中差异。（2）系统聚类法与有序样品聚类法的主要不同点。（3）简要说明距离判别的基本思想。华东理工高校 2005–2006 学年其次学期应用统计学课程期末考试试卷A2006.6（评分标准）开课学院：商学院，专业：考试形式：开卷，所需时间：120分钟考生姓名：学号：班级：任课老师：一、棉

22、结粒数问题（20 分）（4）请完成表头设计。（5 分）表头设计 A BC A×C 列号试验号 1 2 3 4 5 6 7（2）表2中有些数据没给出，请依据方差分析表的原理将其计算出来，给出计算过程。（5分）源于因子B的误差平方和0.107-0.001-0.0700.025-0.003=0.008均方和V A × C 0.025/1=0.025F C =0.070/0.001=70 （3）由表2分析哪些因子在什么显著性水平下是显著的，给出理由。（5分）因子B在显著性水平0.1下是显著的，因为其P=0.080<0.1因子C在显著性水平0.01下是显著的，因为其P=0

23、.004<0.01因子A×C在显著性水平0.05下是显著的，因为其P=0.018<0.05 （4）由表2和表3找出最优生产条件，给出理由。（5分）最优生产条件：A2B2 C 1 因为1 20.325 0.262B Bm m = = 因为1 20.200 0.387C Cm m = = 在因子A和C的组合中，2 10.150A Cm =最小二、食品问题（20 分）（1）由表 5，请写出此聚类问题分析中样品间实行何种距离以及实行何种系统聚类的方法。（10 分）样品间实行欧氏距离；系统聚类方法实行类平均法（组间连接法）。（2）由图 1，若将此六种食品分成三类，应当如何进

24、行分类，并给出每类的特性。（10 分）第 1 类为：4，此类食品养分最好；第 2 类为：1，3，6，此类食品养分中等；第 3 类为：2，5，此类食品养分最差。三、城镇居民月平均收入问题（20 分）（ 1 ）请解释 UnstandardizedStandardized canonical discriminant function 与 Fishers linear discriminantfunctions的差异所在。（5 分）UnstandardizedStandardized canonical discriminant function表示未标准化典型 Fisher 判别函数；Fis

25、hers linear discriminantfunctions表示 Bayes 判别函数。（2）请建立此问题的Canonical Discriminant Function判别函数。（5分）1 1 2 1 2( , ) 7.298 0.059 0.008 u x x x x =- + -2 1 2 1 2( , ) 2.009 0.008 0.186 u x x x x =- - + （3）请依据表 6 的数据，运用表 10 判别广东的城镇居民月平均收入状况分别属于哪类，并说明理由。（5 分）第一类 1 1 2 1 2( , ) 36.445 0.462 0.35336.445 0.462

26、 211.30 0.353 30.77 2978.20y x x x x = - + += - + + = 其次类 2 1 2 1 2( , ) 22.597 0.353 0.33122.597 0.353 211.30 0.331 30.77 2282.69y x x x x = - + += - + + = 第三类 3 1 2 1 2( , ) 32.544 0.451 0.20632.544 0.451 211.30 0.206 30.77 2906.06y x x x x = - + += - + + = 由于属于第一类的分值最高，则广东属于第一类。（4）对此判别问题的误判率进行分析。

27、（5 分）由表 11 可知：第一类的误判率为 45.5；其次类的误判率为 0；第三类的误判率为 50 总的误判率为 28.6。四、中学生体型分析（20 分）（1）在主成分分析中，对拟提取的 m 个主成分的两条基本要求是什么。（4 分）将原来 p 个指标所包含的 n 个个体的不非常明显的差异集中起来，使 n 个个体的主成分指标值差异尽可能大；使主成分指标的数目尽可能少，还要求各主成分指标间互不相关。（2）请写出前两个特征值及其对应主成分的贡献率。（4 分）第一个特征值12.421 l = ，其对应主成分的贡献率为80.687% 其次个特征值20.534 l = ，其对应主成分的贡献率为1

28、7.809%（3）能否对未经旋转的主成分与旋转后的因子作比较，对这两个旋转后的因子的意义作一个合理的说明，并给两个因子命名。（4 分）第一主成分1f 是反映学生身材是否魁梧，可称为大小因子；其次主成分2f 是反映学生体型特征，可称为形态因子。（4）请指出这里的因子分析所采纳的方法。（4 分）提取因子采纳了主成分分析；旋转因子采纳了方差最大化正交旋转的方法。（5）依据因子得分系数矩阵，请写出所提取的两个因子的数学表达式。（4分）1 1 2 32 1 2 30.377 0.632 0.5541.165 0.255 0.120f Zx Zx Zxf Zx Zx Zx= - + + = - - 上

29、式中，1 2 3, , Zx Zx Zx 为经过标准化处理的变量。五、简答题（20 分）（1）简要说明偏差平方和分解的方法在双因素无交互作用方差分析和回来分析的运用中差异。（6 分）参考答案要点：偏差平方和分解的方法在双因素无交互作用方差分析中主要是将总偏差平方和分解为因子的偏差平方和与误差偏差平方和；偏差平方和分解的方法在回来分析的运用中主要是将总偏差平方和分解为残差平方和与回来平方和。（5）系统聚类法与有序样品聚类法的主要不同点。（7 分）参考答案要点：系统聚类法是先将全部 n 个样品看成不同的 n 类，然后将性质最接近（距离最近）的两类合并为一类；再从这 n-1 类中找到最接近的两类加以合并，依次类推，直到全部的样品被合为一类。有序样品聚类法是先假定全部样品为一类，然后根据使得分类所产生的离差平方和增量达到最小的要求逐一分割。（6）简要说明距离判别的基本思想。（7 分）参考答案要点：距离判别的基本思想：依据各类的gn 个样本，求出每类的中心坐标；再依据新样品离开每个类中心的距离远近作出它属于哪一类的推断。

展开阅读全文