《应用统计分析实验R软件newppt课件.ppt》由会员分享,可在线阅读,更多相关《应用统计分析实验R软件newppt课件.ppt(53页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、SPSS:这是一个很受欢迎的统计软件这是一个很受欢迎的统计软件u容易操作,容易操作,u输出漂亮,输出漂亮,u功能齐全,功能齐全,u价格合理。价格合理。u对于非统计工作者是很好的选择。对于非统计工作者是很好的选择。ExcelExcel:严格说来不是统计软件,但作为数据表:严格说来不是统计软件,但作为数据表格软件,必然有一定统计计算功能。格软件,必然有一定统计计算功能。u多数装多数装OfficeOffice时没有装数据分析的功能,画时没有装数据分析的功能,画图功能都具备图功能都具备( (虽然不好看虽然不好看) )。u对于简单分析,对于简单分析,ExcelExcel还算方便,但随着问题还算方便,但随
2、着问题的深入,就不那么的深入,就不那么“傻瓜傻瓜”,需要很麻烦地,需要很麻烦地使用函数,甚至根本没有相应的方法了。使用函数,甚至根本没有相应的方法了。SAS:这是功能这是功能非常非常齐全的软件;齐全的软件;u美国政府政策倾斜美国政府政策倾斜(“权威性权威性”)u许多美国公司使用。许多美国公司使用。u价格不菲价格不菲,每年交费每年交费.即使赠送即使赠送,条件苛刻条件苛刻u尽管现在已经尽量尽管现在已经尽量“傻瓜化傻瓜化”,仍然需要一定,仍然需要一定的训练才可以进入。的训练才可以进入。S-plus:这是统计学家喜爱的软件。:这是统计学家喜爱的软件。u功能齐全,图形漂亮功能齐全,图形漂亮u有不断加入的
3、各个方向统计学家编写的统计软有不断加入的各个方向统计学家编写的统计软件包。也可以自己加入算法件包。也可以自己加入算法.u强大而又方便的编程功能,使得研究人员可以强大而又方便的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和方法。编制自己的程序来实现自己的理论和方法。u它也在进行它也在进行“傻瓜化傻瓜化”以争取顾客。但主要以以争取顾客。但主要以其方便的编程为顾客所青睐。但是对于不会编程其方便的编程为顾客所青睐。但是对于不会编程者者,不那么不那么“傻瓜傻瓜”R软件软件:免费的:免费的,志愿者管理的软件。志愿者管理的软件。u编程方便,语言灵活,图形功能强大编程方便,语言灵活,图形功能强大u
4、有不断加入的各个方向统计学家编写的统计软有不断加入的各个方向统计学家编写的统计软件包。也可以自己加入自己算法的软件包件包。也可以自己加入自己算法的软件包.u这是发展最快的软件,受到世界上统计师生的这是发展最快的软件,受到世界上统计师生的欢迎。是用户量增加最快的统计软件。欢迎。是用户量增加最快的统计软件。u对于一般非统计工作者来说,主要问题是它没对于一般非统计工作者来说,主要问题是它没有有“傻瓜化傻瓜化”。 Minitab:这个软件是很方便的功能强大而又齐:这个软件是很方便的功能强大而又齐全的软件,也已经全的软件,也已经“傻瓜化傻瓜化”,在我国用的不如,在我国用的不如SPSS与与SAS那么普遍。
5、那么普遍。 Eviews:这是一个主要处理回归和时间序列的:这是一个主要处理回归和时间序列的软件。软件。 GAUSS:这是一个很好用的统计软件,许多搞:这是一个很好用的统计软件,许多搞经济的喜欢它。主要也是编程功能强大。目前在经济的喜欢它。主要也是编程功能强大。目前在我国使用的人不多。我国使用的人不多。 MATLAB:这也是应用于各个领域的以编程为这也是应用于各个领域的以编程为主的软件,在工程上应用广泛。但是统计方法不主的软件,在工程上应用广泛。但是统计方法不多。多。使用傻瓜软件的问题使用傻瓜软件的问题. 无法任意取出计算过程中产生的任何中间结果无法任意取出计算过程中产生的任何中间结果; ;只
6、能输出软件规定的输出只能输出软件规定的输出. . 无法在中间插入任何算法无法在中间插入任何算法. . 无法实现软件所没有的计算无法实现软件所没有的计算. .无法实现任何方法无法实现任何方法或计算方面的创新或计算方面的创新. . 是输入输出皆有限制的黑盒子是输入输出皆有限制的黑盒子. . 用语句的任何计算用语句的任何计算( (即使即使1+1=2) 1+1=2) 都需类似八股都需类似八股文的文的 “ “花架子花架子”. .搞统计是否不需要学习编程语言,可以不学习搞统计是否不需要学习编程语言,可以不学习, ,如果你如果你 搞纯粹数学推导的搞纯粹数学推导的, ,只搞只搞“理论理论”, ,不面对数据不面
7、对数据, , 不用计算机不用计算机 觉得岁数太大觉得岁数太大, ,学不会学不会“非傻瓜非傻瓜”的计算的计算 不想有创新不想有创新, ,仅使用现成方法套用仅使用现成方法套用但如果你要创新但如果你要创新 你需要反复试验你的新方法你需要反复试验你的新方法 需要用各种数据来检验你的新方法需要用各种数据来检验你的新方法 需要把你的方法和老方法进行比较需要把你的方法和老方法进行比较 需要介绍自己的新方法需要介绍自己的新方法 使用编程语言不可避免使用编程语言不可避免 R免费免费 资源公开资源公开(不是黑盒子不是黑盒子,也不是吝啬鬼也不是吝啬鬼) R可以在可以在UNIX, Windows和和Macintosh
8、运行运行. R 有优秀的有优秀的内在帮助系统内在帮助系统. R有优秀的有优秀的画图功能画图功能 学生能够轻松地学生能够轻松地转转到商业支持的到商业支持的 S-Plus程序程序(如如果需要使用商业软件果需要使用商业软件) R语言有一个语言有一个强大的强大的,容易学习容易学习的语法的语法,有许多内有许多内在的统计函数在的统计函数. 通过用户自编程序通过用户自编程序, R语言很容易延伸和扩大语言很容易延伸和扩大. 它它就是这样成长的就是这样成长的. R 是计算机编程语言是计算机编程语言. 类似于类似于UNIX语言语言,C语语言言,Pascal,Gauss语言等语言等. 对于熟练的编程者对于熟练的编程
9、者, 它将觉得该语言比其他语言它将觉得该语言比其他语言更熟悉更熟悉. 而对计算机初学者而对计算机初学者, 学习学习R语言使得学习下一步语言使得学习下一步的其他编程不那么困难的其他编程不那么困难. 那些傻瓜软件那些傻瓜软件(SAS,SPSS等等)语言的语法则完全语言的语法则完全不同不同.R的历史的历史 S语言在语言在1980年代后期在年代后期在AT&T实验室开发实验室开发. R 项目由项目由Auckland 大学统计系的大学统计系的Robert Gentleman和和Ross Ihaka于于1995年开始的年开始的. 它很快得到广泛用户的欢迎它很快得到广泛用户的欢迎. 目前它是由目前它是由R核心
10、核心发展团队维持发展团队维持;它是一个由志愿者组成的工作努它是一个由志愿者组成的工作努力的国际团队力的国际团队下载下载R软件软件http:/www.r-project.org学习网站http:/www.biosino.org/pages/newhtm/r/schtml/一一R软件的使用软件的使用1. 基本语法基本语法2. 向量、矩阵向量、矩阵 3. list与与data.frame4. 读写数据文件读写数据文件5. 控制语句与自定义函数控制语句与自定义函数二二. 数据描述性分析数据描述性分析1.分布分布2.统计量统计量3.一维数据的统计图形一维数据的统计图形4.多维数据的图形表示多维数据的图形
11、表示R软件三三. 回归分析回归分析四四. 判别分析判别分析五五. 聚类分析聚类分析六六. 主成分分析主成分分析4. 查看帮助,例如: help(round), ?abs随机向量随机向量 rnorm(10) #10个服从标准正态分布的随机数个服从标准正态分布的随机数z=1:5z7=8;z1 1 2 3 4 5 NA 8 # 缺失数据缺失数据 NAzc(1,3,5)=1:3; z1 1 2 2 4 3 NA 8 # 函数函数is.na()判断数据是否缺失判断数据是否缺失 ,将其为真的赋为将其为真的赋为0zz0,1 #第第1列大于列大于0的元素的元素x,-c(1,3) #没有第没有第1、3列的列的x
12、.x-2,-c(1,3) #没有第没有第2行、第行、第1、3列的列的x. names(stu) #得到所有的变量名得到所有的变量名 stu=data.frame(name=c(“john”,”wuji”), age=c(30,32) x=data.frame(matrix(1:6,nrow=2) names(stu) #得到所有的变量名得到所有的变量名 rownames(stu) #得到行名得到行名 attach(x) #把数据框中的变量链接到内存中把数据框中的变量链接到内存中 x=matrix(1:6,2,3)x=data.frame(x);x X1 X2 X31 1 3 52 2 4 6x
13、$X21 3 4attributes(x)$names1 “X1 “X2 “X3“$row.names1 1 2“$class1 data.framex=data.frame(id=101:120,score=round(rnorm(20,70,10)xseq(1,10,2),xorder(x2,decreasing = T ),xx260,dnorm() #计算正态分布的密度函数计算正态分布的密度函数pnorm() #计算正态分布的分布函数计算正态分布的分布函数qnorm() #计算正态分布的分位数计算正态分布的分位数rnorm() #计算正态分布的随机数计算正态分布的随机数其它分布的关键词
14、:其它分布的关键词:unif , exp,chisq, t, f, binom, poisdexp(2,10 )runif(10,0,10)mean(), median(),quantile(),var(),sd(),cor()sum(),max(),min()summary()table() #列联表列联表x = c(10,71:78, 90) xm - mean(x) c(xm, mean(x, trim = 0.10) A = cbind(c(90,60,70),c(85,66,95)apply(A,1,mean) # 对每一行取平均apply(A,2,mean) #对每一列取平均var
15、(A)cor(A)x=seq(-10,10,2); y=rnorm(11)plot(x, y) plot(x, y,main=散点图散点图,xlab=横坐标横坐标x,ylab=纵坐标纵坐标y)text(x,y, 1:length(x),-1) # 写入点序号写入点序号,第三个参数默认如此第三个参数默认如此plot(x,y,type = o, col = red,pch=2,lty=3)1.散点图散点图 plot(x,y,) type=“p” #散点图,默认散点图,默认type=“l #绘实线绘实线type=“o” #实线通过所有的点实线通过所有的点type=“n” #不画点不画点参数参数lty
16、表示线的类型表示线的类型0=blank, 1=solid (default), 2=dashed, 3=dotted, 4=dotdash, 5=longdash, 6=twodash 低水平作图函数还有低水平作图函数还有points()lines()ablines()text()legend()x=seq(-10,10,2); y=rnorm(11)par(mfrow=c(3,1) #准备画准备画3个图个图plot(x, y) plot(x, y,main=散点图散点图,xlab=横坐标横坐标x,ylab=纵坐标纵坐标y)text(x,y, 1:length(x),-1) # 写入点序号写入
17、点序号plot(x,y,type = o, col = red,pch=2,lty=3)2.散点图矩阵散点图矩阵 pairs(x,)A=matrix(rnorm(12,70,20),nrow=4)pairs(A)3. 多组散点图多组散点图matplot(x,y,)x=seq(0,2*pi,0.2)matplot(x,cbind(sin(x),cos(x),type=c(“o”,”o”),col=2:3)4.星座图星座图 5.脸谱图脸谱图library(aplpack)faces(x,nrow.plot,ncol.plot)stars(x,full=TRUE,draw.segments=FALS
18、E)例例1. 在同一图中绘制标准正态分布和自由度在同一图中绘制标准正态分布和自由度为为5的的t分布的概率密度图分布的概率密度图.plot(x,dnorm(x),type=l,ylab=f(x),main=概率密度图)lines(x,dt(x,5),col=red,lty=2)legend(2,0.4,c(N(0,1),t(5),lty=1:2,col=c(black,red)matplot(x,cbind(dnorm(x),dt(x,5),type=l,ylab=f(x),main=概率密度图)legend(2,0.4,c(N(0,1),t(5),lty=1:2,col=1:2)lwl.and
19、rews=function(X) t=seq(-pi,pi,0.2) n=nrow(X) f=matrix(0,nrow=length(t),ncol=n) for(i in 1:n) f,i=Xi,1/sqrt(2) for(j in 2:ncol(X) if (j%2=0) f,i=f,i+Xi,j*sin(j/2*t) else f,i=f,i+Xi,j*cos(j%/%2*t) matplot(t,f,col=1:n,type=o,main=调和曲线图调和曲线图) 例2:绘制调和曲线图12345( )sincos2sin 2cos 2.,iiiiiixf txtxtxtxtta=rno
20、rm(100,70,10); hist(a)b=rbinom(100,5,0.5)nums=table(b)barplot(nums)例例1:31省市地区的消费支出数据,进行如下统计省市地区的消费支出数据,进行如下统计1.计算各地区的人均消费支出总和,并画出柱状图计算各地区的人均消费支出总和,并画出柱状图2.画出前十个地区的关于衣着和居住两项的复式柱状图。画出前十个地区的关于衣着和居住两项的复式柱状图。3.计算各消费类型的均值,并画出饼状图和柱状图计算各消费类型的均值,并画出饼状图和柱状图3.画出各消费类型的箱线图画出各消费类型的箱线图4.画出各地区的雷达图和脸谱图画出各地区的雷达图和脸谱图
21、barplot(apply(X,1,sum),col=rainbow(31),cex.names=0.5) pie(apply(X,2,mean)barplot(apply(X,2,mean),names=NA,legend=names(X),col=1:ncol(X)barplot(t(X1:10,c(2,7),beside=T,legend=T)实验题11231.3 ,45657810AB 求矩阵B的行列式、逆矩阵、特征根和特征向量及ABA学号 性别 数学 语文 英语 物理1 3001 男 80 76 81 902 3002 男 55 67 79 633 3003 女 27 52 53 4
22、34 3004 女 62 57 66 695 3005 女 94 80 76 716 3006 男 97 59 61 747 3007 男 79 62 78 888 3008 男 70 92 78 839 3009 女 67 66 65 5510 3010 男 97 46 55 7511 3011 男 84 82 88 9212 3012 男 40 57 67 5313 3013 男 72 70 80 8414 3014 男 43 31 56 6015 3015 男 95 75 58 7416 3016 男 62 85 91 8317 3017 女 71 76 68 7418 3018 男 8
23、0 40 52 7119 3019 女 96 75 77 8020 3020 女 82 51 73 7721 3021 女 70 73 85 7722 3022 男 61 40 47 5623 3023 女 64 75 66 7124 3024 女 60 21 48 6525 3025 男 81 88 80 8426 3026 女 89 54 65 7127 3027 男 55 38 58 6228 3028 女 60 54 68 6229 3029 男 65 63 65 7530 3030 男 69 55 73 7531 3031 男 80 29 61 6832 3032 男 91 59 7
24、3 8533 3033 男 69 73 75 7834 3034 女 90 88 73 8735 3035 女 64 70 72 772. 某班某班35人期末成绩见右图人期末成绩见右图a.绘制四科成绩的散点图矩阵、雷绘制四科成绩的散点图矩阵、雷达图和脸谱图达图和脸谱图b.绘制前绘制前5名学生各科成绩的轮廓名学生各科成绩的轮廓图图c.绘制数学与物理成绩的散点图,绘制数学与物理成绩的散点图,其中男生与女生用不同的形状点其中男生与女生用不同的形状点表示。表示。d.绘制四科成绩的箱线图绘制四科成绩的箱线图e.计算四科成绩的平均分,并画出柱状图计算四科成绩的平均分,并画出柱状图f. 分性别统计四科成绩的平均分,并画出复式柱状分性别统计四科成绩的平均分,并画出复式柱状图图g.在数据阵中增加总分列,并依总分从高到低排序在数据阵中增加总分列,并依总分从高到低排序h.计算四科成绩的相关矩阵计算四科成绩的相关矩阵lm(yx) # y为向量, x可为向量与矩阵lm(yx+0) #回归方程没有常数项lm(yx+I(x2) lm(yx1+x2) lm(yx1+x2,data=X) # X为数据框,x1,x2为其中列名lm(y.,data=X)lm(yx1+x2+I(x22)-x3,data=X)