《2022年R软件使用简介 3.pdf》由会员分享,可在线阅读,更多相关《2022年R软件使用简介 3.pdf(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、R 模拟著名的统计软件:SPLUS 。两者语法基本相同,有些功能 R 少一些, 例如:SPLUS 有菜单而 R 没有,不过,R 也正在开发菜单系统。对于 windows 系统,下载R 的安装程序: setupR.exe 。安装后,运行安装目录的bin 子目录下的Rgui.exe , 即运行 R。R 打开后界面简洁,它没有做数据分析用的菜单系统,我们所有的分析工作都是在程序窗口中输入程序来完成。你会看到有一个红色的:,就在这里输入程序。普通模式中,每输入一条语句,回车后就执行。也可以把程序输入在一个文件中,用 source 函数来调用执行,例如:source(C:workpro.txt),表示调
2、用c 盘 work 目录下的pro.txt 文件同时执行其中的R 程序, 请注意文件路径的写法。基本语法:R 的变量名一般是由字母开头的,其后可有数字,下划线不可以,请注意:R 的变量名和命令是区分大小写的。R 中用 - 和 x 表示把值 15 赋值给变量x ,用xx ,表示把 10 赋值于x,数值变量; “www ” -y ,表示把字符串”www ” 赋值于 y,字符变量。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 6 页 - - - - - - - - - 数据输
3、入:c(12,14,16,33)-x 表示把一个向量(12,14,16,33) 赋予变量x。简单的就可以理解为x 是一个数值变量,目前有数据12,14,16,33 。用求均值函数mean() 就可以求其平均数:mean(x) ,系统会输出18.75 。类似的, sd(x) 输出标准差9.64 ,median(x) 则输出中位数15。c(tr,tsed,ddd)-y 此时 y 是一个字符串的向量,可以理解为 y 是一个字符变量。采用 data.frame(x,y)可以把 x 和 y 这两个变量组合为一个二维数据集。如:data.frame(x,y)-z 表示 z 包含了 x 和 y 变量,类似一
4、个数据集。你键入z 回车,就可以看到它的内容。可以用$ 符号来引用数据集中的变量,例如:mean(z$x) ,即计算 z 中的 x 的均数,得到18.75 。如果有一个输好数据的数据文件,则可以用 read.table() 函数来读入数据。比如有一个文件c:/test.txt 包含了数据。用read.table(c:/test.txt,header=T,sep=,)-t。表示读入此文件并保存为t,文件的第一行是变量名(header=T) ;分隔符是逗号 (sep=,) 。如果数据集中有一个变量为dd, 用 t$dd 就可以引用 dd,如: sd(t$dd) 表示计算其标准差。类似的,用名师资料
5、总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 6 页 - - - - - - - - - read.epi() 函数可以读入epi info 数据库,也还有类似函数可以读入 stata 等常用数据库文件。统计描述:采用 R 函数可以计算描述性统计指标。算术均数: mean() 例: mean(x) 或 mean(data$x) 几何均数: exp(mean(log(x) 采用了函数嵌套, 即先取对数log() ,然后求平均mean() ,再求反对数exp() 中位数: medi
6、an() 方差: var() 标准差: sd() 假设检验:T 检验: R 中采用 t.test() 函数。用法: 1、t.test(x) 表示对 x 做总体均数为0 的 t 检验2、t.test(x,mu=10) 表示做总体均数为10 的 t 检验3、t.test(x,y) 表示对两个变量x,y 做两样本均数的成组 t 检验4、t.test(xgroup) 表示 group 为分组变量, x 为数值变量,做 t 检验,此时x 和 y 应该在同一个数据集中。5、t.test(xgroup=1,xgroup=2) 表示对 group 1名师资料总结 - - -精品资料欢迎下载 - - - - -
7、 - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 6 页 - - - - - - - - - 和 2 时的 x 做 t 检验方差分析:利用lm() 函数如果一个数据集dd 中,x 是数值变量, g 是分组变量, 运行:lm(dd$xdd$g) ,这样实际是拟合一个线性模型,x 为应变量, g 为自变量。缺省的输出很少,只有g 和截据的系数,采用 summary() 函数可以输出较多信息。即:summary(lm(dd$xdd$g) 这样将会输出常见方差分析所需要输出的全部信息,诸位一试便知。这里提示了R 的一个特性: 缺省的输出往往
8、是很少的,其实有很多的结果被保存在背后,需要用语句提取出来的。秩和检验:wilcox.test() 函数和 kruskal.test() 函数wilcox.test(x) 表示对 x 做均数为 0 的符号秩和检验kruskal.test(x,g) 表示 x 为数值变量而g 为分组变量,做秩和检验卡方检验: chisq.test() 对于如下四格表资料:12 5 24 11 首先建立四格表:matrix(c(12,24,5,11),crow=2)-data 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - -
9、- - - - 第 4 页,共 6 页 - - - - - - - - - 说明: data 中存储了四格表资料,也就是一个矩阵。c(12,24,5,11) 是一个向量, crow=2 表示有两行, 请注意行列的顺序:即先排“ 列” 数据,再排 “ 行” 数据。然后进行卡方检验:chisq.test(data) 对于四格表卡方,缺省的用Yates 连续性校正。如果用:chisq.test(data,correct=FLASE),则不进行Yates 校正。如果理论数过小,则输出时会提示卡方检验可能不正确,此时就需要用 fisher 精确概率法: fisher.test(data)。线性相关采用
10、cor ()函数可以计算两变量的线性相关系数;采用cor.test() 函数可以计算相关系数比进行假设检验、提供相关系数可信区间。例如: c(12,15,13,16,21,22,14)-x c(25,56,45,15,32,16,45)-y cor.test(x,y) 即可对 x 和 y 进行线性相关分析,计算两者的相关系数并进行假设检验。线性回归:lm()函数可以拟合一般线性模型。例如:lm(yx+z) 便是拟合应变量为y,自变量为x 和 z 的回归方程。直接使用lm(yx+z) 只能输出 x 和 z 的回归系数,用名师资料总结 - - -精品资料欢迎下载 - - - - - - - - -
11、 - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 6 页 - - - - - - - - - summary(lm(yx+z),即外部套上summary 函数,可以输出线性回归分析的大部分内容。summary(lm(yx+z+x*z) 则是考虑了x 和 z 的交互作用了。结R 中能够实现各种常用统计分析,这,一般成熟的统计软件都是具有的。R,作为 s+的一个克隆,其实是S 语言的一个编程环境。R 中一切都是对象。R 中的功能主要是以函数的形式实现。使用者可以修改(重载)这些函数,也可以开发新的函数。R 有很多 package ,实现各种功能,可以在R 的站点 cran中下载安装各种package 以扩展功能。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 6 页 - - - - - - - - -