《统计建模与R软件实验报告.docx》由会员分享,可在线阅读,更多相关《统计建模与R软件实验报告.docx(21页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计建模与R软件实验报告开课学院、试验室:数学与统计学院 试验时间 :2013 年 3 月 日 试验项目 名 称 多维数组和矩阵 试验项目类型 验证 演示 综合 设计 其他 指导 老师 张应应 成 绩 一、 试验目的 1• 了解 R 软件的基本功能以及基本操作 2. 驾驭 R 软件的基本操作 二、 试验内容 生成一个 5 阶的 Hilbert 矩阵 1 H (h j ) nn, h ij _ ,i, j 1,2,.n. i j 1 (1) 计算 Hilbert 矩阵 H 的行列式 (2) 求 H 的逆矩阵 (3) 求 H 的特征值和特征向量。三、 试验原理、方法(算法)、步骤 1.
2、函数 det(A) 是求矩阵 A 的行列式的值 2. 求矩阵 A 的逆,其吩咐形式为 slove(A) 3. 函数 eigen ( Sn )是求对称矩阵 Sm 的特征值与特征向量 n<-5;x<-array(0,dim=c (n,n) for (i in 1:n)for (j in 1:n)xi,jv-1/(i+j-1);x det(x) solve(x) eige n(x) 四、 试验环境(所用软件、硬件等)及试验数据文件 软件:R 2.15.3 五、 试验结果及实例分析老师签名 年 月曰 > n< _5;x<_array(0,dim=c (n,n) >
3、for (i in 1:n) + for (j in 1:n) + xi,j<-1/(i+j-1) + + ;x ,1 ,2 ,3 ,4 ,5 1, 1.0000000 0.5000000 0.3333333 0.2500000 0.2000000 2, 0.5000000 0.3333333 0.2500000 0.2000000 0.1666667 3, 0.3333333 0.2500000 0.2000000 0.1666667 0.1428571 4, 0.2500000 0.2000000 0.1666667 0.1428571 0.1250000 5, 0.2000000
4、0.1666667 0.1428571 0.1250000 0.1111111 > det(x) 1 3.749295e-12 > solve(x) ,2 ,3 ,4 ,5,1 1, 25 -300 1050 -1400 630 2, -300 4800 -18900 26880 -12600 3, 1050 -18900 79380 -117600 56700 4, -1400 26880 - 117600 179200 -88200 5, 630 -12600 56700 -88200 44100> eige n(x) $values 1 1.567051e+00 2.0
5、85342e-01 1.140749e-02 3.058980e-04 3.287929e-06 $vectors ,1 ,2 ,3 ,4 ,5 1, 0.7678547 0.6018715 -0.2142136 0.04716181 0.006173863 2, 0.4457911 -0.2759134 0.7241021 -0.43266733 -0.116692747 3, 0.3215783 -0.4248766 0.1204533 0.66735044 0.506163658 4, 0.2534389 -0.4439030 -0.3095740 0.23302452 -0.76719
6、1193 5, 0.2098226 -0.4290134 -0.5651934 -0.55759995 0.376245545 分析:从试验结果来看。R 软件在处理数据上相当精确,便利。开课学院、试验室:数学与统计学院 试验时间 :2013 年 3 月 日 试验项目 描述统计量 试验项目类型 名 称 验证 演示 综合 设计 其他 指导 老师 张应应 成 绩 、试验目的1. 驾驭利用 R 软件描述统计量的方法 2. 学会利用 R 软件绘制数据的分布图 3. 驾驭多元数据的数据特征与相关分析在 R 软件中的操作 、试验内容 用 Pearson 相关检验法检验习题 3.7 中的身高与体重是否相关 三
7、、试验原理、方法(算法)、步骤 Pearson 相关性检验:利用统计量 t 听从自由度为 n-2 的 t 分布的性质,对数据 X 和 丫 的相 关性进行检验。r xy n 2t_r xy 其中 四、试验环境(所用软件、硬件等)及试验数据文件 R 2.15.3 数据文件 3.7 数据 .txt ,其内容如下: 学号姓名性别年龄身高体重 01 Alice F 13 56.5 84.0 02 Becka F 13 65.3 98.0 03 Gail F 14 64.3 90.0 04 Kare n F 12 56.3 77.0 05 Kathy F 12 59.8 84.5 06 Mary F 15
8、 66.5 112.0 07 Sandy F 11 51.3 50.5 08 Sharo n F 15 62.5 112.5 09 Tammy F 14 62.8 102.5 10 Alfred M 14 69.0 112.5 11 Duke M 14 63.5 102.5老师签名 年 月曰 12 Guido M 15 67.0 133.0 13 James M 12 57.3 83.0 14 Jeffrey M 13 62.5 84.0 15 John M 12 59.0 99.5 16 Philip M 16 72.0 150.0 17 Robert M 12 64.8 128.0 18
9、Thomas M 11 57.5 85.0 19 William M 15 66.5 112.0 五、试验结果及实例分析 student<-read.table(3.7 数据.txt,header=T) attach(stude nt) > cor.test(身高 , 体重 ) #Pearson 相关性检验 Pears ons product-mome nt correlati on data: 身高 and 体重 t = 7.5549, df = 17, p-value = 7.887e-07 alter native hypothesis: true correlatio n
10、is not equal to 0 95 perce nt con fide nee in terval: 0.7044314 0.9523101 sample estimates: cor 0.8777852 其 p 值 7.887e-07<0.05,拒绝原假设,所以身高与体重相关开课学院、试验室: 数学与统计学院 试验时间 :2013 年 月 日 试验项目 参数估计 试验项目类型 名 称 验证 演示 综合 设计 其他 指导 老师 张应应 成 绩 、试验目的1 、学会利用 R 软件完成一个和两个正态总体的区间估计。2 、学会利用 R 软件完成非正态总体的区间估计。3 、学会利用 R 软
11、件进行单侧置信区间估计 、试验内容 正常人的脉搏平均每分钟 72 次,某一声测得 10 例四乙基铅中毒患者的脉搏数(次 /min )如 下:54 67 68 78 70 66 67 70 65 69 已知人的脉搏次数听从正态分布,试计算这 10 名患者平均脉搏次数的点估计和 95% 勺区间估 计,并做单侧区间估计,试分析这 10 名患者的平均脉搏次数是否低于正常人的平均脉搏次 数。三、试验原理、方法(算法)、步骤 假设正态总体 X N ( , 2 ) , X 1 ,X 2 , X n 为来自总体 X 的一个样本, 1 为置信度, X 为 样本均值, S 2 为样本方差。2已知和未知状况下,均值
12、 的单侧置信区间估计。分别探讨总体方差 若2 已知,得到 P XZ a 1 于是得到的置信度为 PX 乙1 1 的单侧置信区间分别为 X Z a ,, Jn 因此,的置信度为 X Z a 一 :n , 若2未知,得到 X 的单侧置信下限、上限分别为: 乙 、 n P XS 于是得到 S X t a (n 1), , 、 n 因此, 的置信度为 1 t a (n 1) 的置信度为 X P t a (n 1) 1 SL 的单侧置信区间分别为 S ,X nt a (n 1) 的单侧置信下限、上限分别为1) , 老师签名 年 月曰数据见试验内容,所用软件: 五、试验结果及实例分析 在 R 软件中运行代
13、码: > x<-c(54,67,68,78,70,66,67,70,65,69) > t.test(x) #做单样本正态分布区间估计 One Sample t-test data: x t = 35.947, df = 9, p-value = 4.938e-11 alter native hypothesis: true mea n is not equal to 0 95 perce nt con fide nee in terval: 63.1585 71.6415 sample estimates: mean of x 67.4 #平均脉搏点估计为 67.4, 95%
14、置信度的区间估计为 63.1585, 71.6415。> t.test(x,alternative=less,mu=72) #做单样本正态分布单侧区间估计 One Sample t-test data: x t = -2.4534, df = 9, p-value = 0.01828 alter native hypothesis: true mea n is less tha n 72 95 perce nt con fide nee in terval: -Inf 70.83705 sample estimates: mea n of x 67.4 p-value = 0.01828
15、<0.05,拒绝原假设,平均脉搏低于常人。X St a (n .n X St a (n .n 1) 四、试验环境(所用软件、硬件等)及试验数据文件 R2.15.1开课学院、试验室:试验时间 :2013 年 月 日 试验项目 假设检验 试验项目类型 名 称 验证 演示 综合 设计 其他 指导 老师 张应应 成 绩 一、 试验目的 1 、 了解假设检验的基本概念与步骤 2 、 驾驭几种重要的参数检验 3 、 驾驭若干重要的非参数检验 二、 试验内容 为探讨某中心要对抗凝血酶活力的影响, 随机支配新药组病人 12 例,比照组病人 10 例, 分别测定其抗凝血酶活力,其结果如下:新药组:126
16、125 136 128 123 138 142 116 110 108 115 140 比照组:162 172 177 170 175 152 157 159 160 162 试分析新药组和比照粗病人的抗凝血酶活力有无差别( 0.05 )三、 试验原理、方法(算法)、步骤 1. 基本原理:解决一个详细的假设检验问题,一般要借助直观分析和理论分析思想。其 基本原理是实际推断原理:小概率事务在一次试验中几乎不行能发生,假如发生,就认为 是不正常的,应当拒绝。2. 方法:( 1 )提出原假设 Ho ( 2 )确定假设检验统计量 Z ,并在 Ho 成立的条件下,导出 Z 的分布 ( 3 )确定拒绝域:
17、由直观分析先确定拒绝的形式,然后由显著水平 a 及 Z 的 分布 P 确定拒绝域的临界值,进而确定拒绝域 C ( 4 )依据详细的一次样本值做出推断 3. 详细算法:假设 X 1 ,X 2 , X n1 是来自总体 X N( 1 , 1 2 )的样本, Y,Y 2 , Y n2 是来自总体 YN( 2 , ; )的样本,且两样本独立,其检验问题有:双边检验:H 。:1 2 , H 1 : 1 2 单边检验 I H 。:1 2 , H 1 : 1 2单边检验 H ° : 1 2 , H 1 2则认为 H 。不成立, 四、试验环境(所用软件、硬件等)及试验数据文件 见试验内容 软件:R2.
18、15.3 R 软件。五、试验结果及实例分析 > a <- c(126,125,136,128,123,138,142,116,110,108,115,140) > b <- c(162,172,177,170,175,152,157,159,160,162) #正态性检验:> ks.test(a,p no rm,mea n( a),sd(a) On e-sample Kolmogorov-Smir nov test data: a D = 0.1464, p-value = 0.9266 alter native hypothesis: two-sided >
19、; ks.test(b,p no rm,mea n( b),sd(b) On e-sample Kolmogorov-Smir nov test data: b D = 0.2222, p-value = 0.707 alter native hypothesis: two-sided #方差齐性检验:> var.test(a,b)方差 i 22 未知, S 2 和 S ; 分别是 X 和 丫 的样本方差。由统计学问可知,当 H 。为真时, T 亠 1 L 其中 闷需t( n i n 2 2) n 11 ) s :(n 21)S ; n 2n 1n 22 因此,当 T 满意(成为拒绝域)
20、:t (n i 2 双边检验: n 2 2) 单边检验 I t (m n 2 2) 单边检验 II t ( n i n 2 2) 此方法也称为 t 检验法。老师签名 年 月曰 F test to compare two varia nces data: a and b F = 1.9646, num df = 11, denom df = 9, p-value = 0.32 alter native hypothesis: true ratio of varia nces is not equal to 1 95 perce nt con fide nee in terval: 0.50219
21、43 7.0488630 sample estimates: ratio of varia nces 1.964622 #可认为 a 和 b 的方差相同。#选用方差相同模型 t 检验:> t.test(a,b,var.equal=TRUE) Two Sample t-test data: a and b t = -8.8148, df = 20, p-value = 2.524e-08 alter native hypothesis: true differe nce in means is not equal to 0 95 perce nt con fide nce in terva
22、l: -48.24975 -29.78358 sample estimates: mean of x mean of y 125.5833 164.6000 p-value = 2.524e-08<0.05,因而认为两者有显著差别。开课学院、试验室:数学与统计学院 试验时间 :2013 年 月 日 试验项目 名 称 回来分析 试验项目类型 验证 演示 综合 设计 其他 指导 老师 张应应 成 绩一、 试验目的 1. 驾驭回来分析的原理以及在 R 软件上的运用 2. 驾驭回来诊断在 R 软件上的运用 3. 驾驭回来诊断的原理 二、 试验内容 为了估计山上积雪溶化后对下游浇灌的影响, 在山上
23、建立一个 观测站,测量最大面积积雪深度 X 与当年 浇灌面积 Y,测得连续 10 年的数据 10 年中最大积雪深度与当年浇灌面积的数据 年序 X/m Y/hm A 2 序号 X/m Y/hmA2 1 5.1 1907 6 7.8 3000 2 3.5 1287 7 4.5 1947 3 7.1 2700 8 5.6 2273 4 6.2 2373 9 8.0 3113 5 8.8 3260 10 6.4 2493 1•试画相应的散点图,推断 Y 与 X 是否有线性关系2•求出 Y 关于 X 的一元线性回来方程; 3. 对方程做显著性分析; 4• 先测得今年的数据是
24、 X=7m ,给出今年浇灌面积的预料值和相应的区间估计( a =0.05 )三、 试验原理、方法(算法)、步骤 回来分析探讨的主要问题是:1. 确定 丫 与 X1 , X2.Xp 间的定量关系表达式,即回来方程 2. 对求得的回来方程的可信度进行检验 3. 推断自变量 Xj(j=1,2,.p)对 丫 有无影响 4. 利用所求的的回来方程进行预料和限制,在比较严密的分析中,一般不轻易剔除变量, 而是对显著差异变量进行分析。四、 试验环境(所用软件、硬件等)及试验数据文件 软件:R 2.15.3 数据见试验内容 五、试验结果及实例分析老师签名 年 月曰 #输入数据并运行得:x<-c(5.1,
25、3.5,7.1,6.2,8.8,7.8,4.5,5.6,8.0,6.4) y<-c(1907,1287,2700,2373,3260,3000,1947,2273,3113,2493) plot(x,y) 分析结果:由散点图可得 x,y 线性相关 lm.sol<-lm(y1+x) summary(lm.sol) Call: lm(formula = y 1 + x) Residuals: Min 1Q Media n 3Q Max -128.591 -70.978 -3.727 49.263 167.228 Coefficie nts: Estimate Std. Error t
26、value Pr(>|t|) (In tercept) 140.95 125.11 1.127 0.293 x 364.18 19.26 18.908 6.33e-08 * Sign if. codes: 0 * 0.00* 0.01 * 0.05 .0.1 1Residual sta ndard error: 96.42 on 8 degrees of freedom Multiple R-squared: 0.9781, Adjusted R-squared: 0.9754 F-statistic: 357.5 on 1 and 8 DF, p-value: 6.33e-08 分析结
27、果:由上述结果可得 y 关于 x 的一元线性回来方程为 y=140.95+364.18x ; 并由 F 检验和 t 检验,可得回来方程通过了回来方程的显著性检验 #对数据进行预料,并且给相应的区间估计 n ew<-data.frame(x=7) lm.pred<-predict(lm.sol, new,i nterval=predictio n,level=0.95) lm.pred fit lwr upr 1 2690.227 2454.971 2925.484 分析结果:预料值为 2690.227,估计区间为2454.971 ,2925.484开课学院、试验室:数学与统计 试验
28、时间 :2013 年 04 月 20 日 试验项目 判别分析 试验项目类型 名 称 验证 演示 综合 设计 其他 指导 老师 张应应 成 绩 一、 试验目的 1. 在已知样本有多少类的状况下对样本进行分类; 2• 熟识 R 软件的各种操作; 3. 利用 R 软件进行各种方式的判别分析。二、 试验内容 依据阅历 今日与昨天的温度差 X1 及今日的压温差(气压与温度之差) X2 是预报明天下雨 或不下雨的两个重要因素。现有一批已收集的数据资料,如表所示,金测得 x1=8.1 , x2=2.0 试问预报明天下雨还是预报明天不下雨?分别用距离判别、 Bayes 判别、(考虑方差相同与方 差不
29、同两种状况)和 Fisher 判别来得到你所须要的结论 表 8.7. 三、 试验原理、方法(算法)、步骤 距离判别法:W ( x )( X X ) T2 ( x x( 2 ) ) (xX ) TBayes 判别法:. 1 T 1 T 1 W(x) -(x 2 ) T2(x 2 ) (x J T1(x 2 2 1Fisher 判别法:W(x) d T S 1 (x x) 四、 试验环境(所用软件、硬件等)及试验数据文件 试验数据见试验内容 软件:R2.15.1 五、 试验结果及实例分析:# 距离判别 classX1=data.frame( x1=c(-1.9,-6.9,5.2,5.0,7.3,6
30、.8,0.9,-12.5,1.5,3.8), x2=c(3.2,10.4,2.0,2.5,0.0,12.7,-15.4,-2.5,1.3,6.8) ) classX2=data.frame( x1=c(0.2,-0.1,0.4,2.7,2.1,-4.6,-1.7,-2.6,2.6,-2.8). 详细数据见统计建模与 R 软件 P420 1(1) 2 ( X X ) ,推断其值是否大于 0. J ,推断值与 的关系;x2=c(0.2,7.5,14.6,8.3,0.8,4.3,10.9,13.1,12.8,10.0) ) TstX=data.frame( x1=c(8.1), x2=c(2.0)
31、) # 对训练样本的回代状况 # var.equal=T :有 4 个错判,错判率为 4/20=0.2 # var.equal=F: 有 5 个错判,错判率为 5/20=0.25 source(discrimi nian t.dista nce.R) discrimi nian t.dista nce(classX1,classX2,var.equal=T) discrimi nian t.dista nce(classX1,classX2,var.equal=F) # 对测试样本进行判别:均判为第 1 组 discrimi nian t.dista nce(classX1,classX2,T
32、stX,var.equal=T) discrimi nian t.dista nce(classX1,classX2,TstX,var.equal=F) # Bayes # TrnX1, TrnX2 以矩阵的形式输入 TrnX1=matrix( c(-1.9,-6.9,5.2,5.0,7.3,6.8,0.9,-12.5,1.5,3.8, 3.2,10.4,2.0,2.5,0.0,12.7,-15.4,-2.5,1.3,6.8), n col=2) Trn X2=matrix( c(0.2,-0.1,0.4,2.7,2.1,-4.6,-1.7,-2.6,2.6,-2.8, 0.2,7.5,14.
33、6,8.3,0.8,4.3,10.9,13.1,12.8,10.0), n col=2) TstX=data.frame( x1=c(8.1), x2=c(2.0)老师签名 年 月曰 # 对训练样本的回代状况 # var.equal=T :有 4 个错判,错判率为 4/20=0.2 # var.equal=F: 有 5 个错判,错判率为 5/20=0.25 source(discrim inian t.bayes.R) discrimi nian t.bayes(TrnX1,TrnX2,rate=1,var.equal=T) discrimi nian t.bayes(TrnX1,TrnX2,
34、rate=1,var.equal=F) # 对测试样本进行判别:均判为第 1 组 discrimi nia nt.bayes(TrnX1,TrnX2,rate=1,TstX,var.equal=T) discrimi nia nt.bayes(TrnX1,TrnX2,rate=1,TstX,var.equal=F) discrimi nia nt.bayes(classX1,classX2,rate=1,TstX,var.equal=T) discrimi nian t.bayes(classX1,classX2,rate=1,TstX,var.equal=F) # Fisher # 对训练样
35、本的回代状况 # 有 4 个错判,错判率为 4/20=0.2 source(discrimi nia nt.fisher.R) discrimi nian t.fisher(classX1,classX2) # 对测试样本进行判别:判为第 1 组 discrimi nian t.fisher(classX1,classX2,TstX) # 三种方法均预报明天下雨 colMea ns(classX1) colMea ns(classX2) x1 x2 -0.38 8.25开课学院、试验室:数学与统计学院 试验时间 :2013 年 4 月 日 试验项目 主成分分析 试验项目类型 名 称 验证 演示
36、 综合 设计 其他 指导 老师 张应应 成 绩 一、 试验目的 1. 驾驭利用主成分分析的理论思想,将多指标化为少数几个综合的指标; 2. 娴熟应用 R 软件来进行主成分分析; 3. 利用主成分分析的结果对详细问题作出合理的说明分析。二、 试验内容 用主成分法探讨城市工业主体,表格里是某市工业部门 13 个行业,分别是冶金,电力,煤 炭,化学,机械,建材,食品,森工,纺织,缝纫,皮革,造纸,文教艺术品, 8 个指标, 分别是年末固定资产净值 X1 ,职工人数 X2 ,工业总产值 X3 ,全员劳动生产率 X4 ,百元固 定原值实现产值 X5 ,资金利税率 X6 ,标准燃料消费量 X7, 和能源利
37、用开发效果 X8. 的数据。见统计建模与 R 软件 P475 表 9.7 (1) 利用主成分分析方法分析确定 8 个指标的几个主成分,并对主成分进行说明; (2) 利用主成分得分对 13 个行业内进行排序和分类。三、 试验原理、方法(算法)、步骤 基本原理:主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有肯定相关 性的指标 X1 , X2, , XP (比如 p 个指标),重新组合成一组较少个数的互不相关的综合指 标 Fm 来代替原来指标。计算步骤:(1) 计算协方差矩阵; (2) 求出工的特征值 i 入及相应的正交化单位特征向量; (3) 选择主成分; (4) 选择主
38、成分; (5) 选择主成分 . 四、 试验环境(所用软件、硬件等)及试验数据文件 数据见试验内容 R 2.15.3五、 试验结果及实例分析(1)利用主成分确定了 8 个指标的主成分,有 4 个,即主成分碎石图所示 > in dustry<-data.frame( +X1=c(90342,4903,6735,49454,139190,12215,2372,11062,17111,1206,2150,5251,14341), +X2=c(52455,1973,21139,36241,203505,16219,6572,23078,23907,3930,5704,6155,13203),
39、 +X3=c(101091,2035,3767,81557,215898,10351,8103,54935,52108,6126,6200,10383,19396), +X4=c(19272,10313,1780,22504,10609,6382,12329,23804,21796,15586,10870,16875,14691), + X5=c(82.0,34.2,36.1,98.1,93.2,62.5,184.4,370.4,221.5,330.4,184.2,146.4,94.6), + X6=c(16.1,7.1,8.2,25.9,12.6,8.7,22.2,41.0,21.5,29.
40、5,12.0,27.5,17.8), +X7=c(197435,592077,726396,348226,139572,145818,20921,65486,63806,1840,8913,78796,6354), +X8=c(0.172,0.003,0.003,0.985,0.628,0.066,0.152,0.263,0.276,0.437,0.274,0.151,1.574) > in dustry.pr<-pri ncomp(i ndustry,cor=T) > summary(industry.pr) #做主成分分析,得到 4 个主成分,累积贡献率达 94.68%
41、Importa nee of comp onen ts: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Stan dard deviation 1.7620762 1.7021873 0.9644768 0.80132532 0.55143824 Proportion of Variance 0.3881141 0.3621802 0.1162769 0.08026528 0.03801052 Cumulative Proportion 0.3881141 0.7502943 0.8665712 0.94683649 0.98484701 Comp.6 Comp.7 C
42、omp.8 Stan dard deviation 0.29427497 0.179400062 0.0494143207 Proportion of Variance 0.01082472 0.004023048 0.0003052219 Cumulative Proportion 0.99567173 0.999694778 1.0000000000 > load<-loadi ngs(i ndustry.pr) # 求出载荷矩阵 > load Loadi ngs: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp
43、.8X1 -0.477 -0.296 -0.104 0.184 0.758 0.245 X2 -0.473 -0.278 -0.163 -0.174 -0.305 -0.518 0.527 X3 -0.424 -0.378 -0.156 -0.174 -0.781 X4 0.213 -0.451 0.516 0.539 0.288 -0.249 0.220 X5 0.388 -0.331 -0.321 -0.199 -0.450 0.582 0.233 X6 0.352 -0.403 -0.145 0.279 -0.317 -0.714 X7 -0.215 0.377 -0.140 0.758
44、 -0.418 0.194 X8 -0.273 0.891 -0.322 0.122 SS loadi ngs 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 Proporti on Var 0.125 0.125 0.125 0.125 0.125 0.125 0.125 0.125 Cumulative Var 0.125 0.250 0.375 0.500 0.625 0.750 0.875 1.000> plot(load,1:2) > text(load,1,load,2,adj=c(-0.4,-0.3) > scre
45、eplot(i ndustry.pr, npcs=4,type=li nes) # 得出主成分的碎石图 Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8 LB -0.1 -0.2 0.U 0.2 0.4 Comp 1 > p<-predict(industry.pr) #预料数据,讲预料值放入 p 中 > order(p,1);order(p,2);order(p,3);order(p,4); #将预料值分别以第一,其次,第三,第四主成分进行排序 1 5 1 3 2 4 6 13 11 9 7 12 10 8 1
46、5 8 4 910 1 13 12 7 11 6 2 3 1 8 1 5 3 9 12 7 10 2 6 11 4 13 1 11 6 5 7 10 13 12 9 1 8 3 2 4 > kmeans(scale(p),4)#将预料值进行标准化,并分为 4 类 Industry ,pr > biplot(i ndustry.pr) #得出在第一,其次主成分之下的散点图 賈 * 2 S 口O O Comp 1 Comp .3 Gornp.G Comp 7 9 1 /.I g老师签名 年 月曰 K-means clustering with 4 clusters of sizes 5
47、, 1,4, 3 Cluster means: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 1 0.5132590 -0.03438438 -0.3405983 -0.5130031 0.2355151 0.22441040 2 -2.5699693 -1.32913757 -0.4848689 -0.9460127 -0.9000187 -0.06497950 3 0.2381581 0.72871986 -0.2995918 0.3126036 -0.4744091 -0.19709710 4 -0.3163193 -0.47127333 1.1287426 0.7535380 0.5400265 -0.08956137 Comp.7 Comp.8 1 -0.38197798 -0.7474855 2 -0.67500209 0.4569548 3 0.09063069 0.9826915 4 0.74078975 -0.2167643 Clusteri ng vector: 1 4 3 3 4 2 1 1 1 1 3 1 3 4 With in cluster sum of squares by cluster: 1 19.41137 0.00000 2