《最新stata命令总结.doc》由会员分享,可在线阅读,更多相关《最新stata命令总结.doc(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精品资料stata命令总结.stata11常用命令注:JB统计量对应的p大于0.05,则表明非正态,这点跟sktest和swilk检验刚好相反;dta为数据文件;gph为图文件;do为程序文件;注意stata要区别大小写;不得用作用户变量名:_all _n _N _skip _b _coef _cons _pi _pred _rc _weight doublefloat long int in if using with命令:读入数据一种方式input x y1 42 5.53 6.24 7.75 8.5endsu/summarise/sum x 或 su/summarise/sum x,d对
2、分组的描述:sort groupby group:su x%tabstat economy,stats(max) %返回变量economy的最大值%stats括号里可以是:mean,count(非缺失观测值个数),sum(总和),max,min,range,% sd,var,cv(变易系数标准差/均值),skewness,kurtosis,median,p1(1分位% 数,类似地有p10, p25, p50, p75, p95, p99),iqr(interquantile range = p75 p25)_all%描述全部_N 数据库中观察值的总个数。_n 当前观察值的位置。_pi 圆周率的
3、数值。listgen/generate %产生数列egen wagemax=max(wage)clearuseby(分组变量)set more 1/0count %计数gsort+x (升序)gsort-x (降序)sort x 升序;并且其它变量顺序会跟着改变label var y 消费 %添加标签describe %描述数据文件的整体,包括观测总数,变量总数,生成日期,每个变量的存储类型(storage type),标签(label)replace x5=2*y if x!=3 %替换变量值replace age = 25 in 107 %令第107个观测中age为25rename y2
4、u %改变变量名drop in 2 %删除全部变量的第2行drop if x=. 删去x为缺失值的所有记录keep if x0.05则接受原假设,即服从正态分布;% sktest是基于变量的偏度和斜度(正态分布的偏度为0,斜度为3)swilk x %基于Shapiro-Wilk检验%p值越小,越倾向于拒绝零假设,也就是变量越有可能不服从正态分布xi %生成虚拟变量tabulat gender,summ(math) %用gender指标对math进行分类,返回两类math的mean、std、freqtabulate=tab %gen f=int(shengao-164)/3)*3+164 组距为
5、3tabulate 变量名 , generate(新变量) missing nofreq nolabel plot %generate(新变量) / 按分组变量产生哑变量nofreq / 不显示频数nolabel / 不显示数值标记plot / 显示各组频数图示missing / 包含缺失值cell / 显示各小组的构成比(小组之和为 1)column / 按栏显示各组之构成(各栏总计为 1)row / 按行显示各组之构成(各行总计为 1)%求和,求最小?mod(x,y) %求余数means %返回三种平均值di normprob(1.96)di invnorm(0.05)di binomia
6、l(20,5,0.5)di invbinomial(20,5,0.5)di tprob(10,2)di invt(10.0.05)di fprob(3,27,1)di invfprob(3,27,0.05)di chi2(3,5)di invchi2(3,0.05)stack x y z,into(e) %把三列合成一列xpose,clear %矩阵转置append using d:0917.dta %把已打开的文件(x y z)跟0917里的(x y z)合并,是竖向合并,即观察值合并;merge using D:0917.dta %把已打开的文件(x y z)跟0917里的(a b)合并,
7、是横向合并,即变量合并;format x %9.2e %科学记数format x %9.2f %2位小数%产生随机数%1 产生20个在(0,1)区间上均匀分布的随机数uniform()set seed 100set obs 20gen r=uniform()list%clear 清除内存set seed 200 设置种子数为 200set obs 20 设置样本量为 20range no 1 20 建立编号 1 至 20gen r=uniform() 产生在(0,1)均匀分布的随机数gen group=1 设置分组变量 group 的初始值为 1sort r 对随机数从小到大排序replace
8、 group=2 in 11/20 设置最大的 10 个随机数所对应的记录 为第2组,即:最小的10个随机数所 对应的记录为第1组sort no 按照编号排序list 显示随机分组的结果也可以list if group=1和list no if group=1%2 产生10个服从正态分布N(100,62)的随机数invnorm(uniform()*sigma+uclear 清除内存set seed 200 设置种子数为 200set obs 10 设置样本量为 10gen x=invnorm(uniform()*6+100 产生服从 N(100,62)的随机数list画图注意有些图前面要加hi
9、stogram 直方图line 折线图scatter 散点图scatter y x,c(l) s(d) b2(a)graph twoway connected y x 连点图graph bar (sum) var2,over(var1) blabel(total) %条形图. graph bar p52 p72,by(d). graph bar p52 p72,over(d). graph bar p52 p72,by(d) stack. graph bar p52 p72,over(d) stack/数据如下%dp52p72%1163.227.4%272.583.6%357.2178.2hi
10、stogram x,bin(8) norm %画直方图,加正态分数线graph pie a b o ab if area=1,plabel(_all percent) %画饼图graph pie var2, over(var1) plabel(_all percent) %饼图graph pie p52 p72,by(d) %饼图graph box y1 %箱体图qnorm x %qq图lfit y x %回归直线graph matrix gender economy math 多变量散点图line yhat x|scatter y x,c(.l) s(O.) xline(12) yline(
11、5.4) %线形图&散点图有一些通用的选项可以给图形“润色”:标题 title(“string”) (string可为任意的字符串,下同)脚注 note(“string”)横座标标题 xtitle(“string”)纵座标标题 ytitle(“sting”)横座标范围 xaxis(a,b) (a0时取1, x0时取-1, x=0时取0; 符号函数di int(x) %去掉x的小数部分, 得到整数 (取整函数)sum(x) %获得包括当前记录及以前的所有记录的x 的和。缺失值(missing value)当0处理;求和函数max(x1,x2,.,Xn) 忽略缺失值;最大值函数min(x1,x2,
12、.,Xn) 忽略缺失值;最小值函数float(x) %将x转换成浮点表示法。gen yy=cond(x2,10,11) %条件函数cond(x,a,b) x可以是一个条件, x非0(条件成立)时取a, x为0(条件不成立)时取b。gen y1=recode(x,2,5) %归组函数recode(x,x1,x2,.xn)gen y2=autocode(x,3,-2,9) %autocode(x,ng,xmin,xmax) 自动将区间(xmin,xmax)分成ng个等长的小区间,其结果是包含x值那个小区间的上界值t检验:gend=x-yttestd=0ttestx=y如果不配对ttestx1=x2
13、,unpairedttestx1=x2,unequalunpaired已知样本均数、标准差和样本数进行t检验:ttesti 21 1.28 0.92 0.2 %检验均值是否等于0.2检验两组均数是否相同:ttesti 11 10 1.9 14 12.8 2.3检验变量x1和x2的方差是否相同(即:齐性)sdtestx1=x2一、配对设计的平均水平检验当总体服从正态分布时,可以选用t检验,否则用非参符号秩检验signrankd=0二、平行对照设计的两组资料平均水平统计检验如果两组资料的方差齐性和相互独立的,并且每组资料服从正态分布,则用成组t检验,否则可以用成组Wilcoxon秩和检验ranks
14、um x, by(group) %2组资料中位数比较kwallis x, by(group) %多组资料中位数比较anova x t id %x为因变量,t跟id是因素egenr=rank(x),by(id) %产生秩r单因素方差分析:单因素方差分析又称为OnewayANOVA,用于比较多组样本的均数是否相同,并假定:每组的数据服从正态分布,具有相同的方差,且相互独立,则无效假设Ho:各组总体均数相同。在STATA中可用命令:oneway x group, mean bonferroni %bonferroni用于多组样本均数的两两比较检验logrank t outcome, by(group) %单因素生存分析两因素方差分析多因素方差分析:anova y x1 x2 x1*x2