《stata简明教程(1).ppt》由会员分享,可在线阅读,更多相关《stata简明教程(1).ppt(40页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Stata 统计软件包是目前世界上最著名统计软件包是目前世界上最著名的统计软件之一,国外将的统计软件之一,国外将Stata与与SAS、SPSS 一起被并称为三大权威软件。它一起被并称为三大权威软件。它同时具有数据管理软件、统计分析软件、同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的绘图软件、矩阵计算软件和程序语言的特点,几乎可以完成全部复杂的统计分特点,几乎可以完成全部复杂的统计分析工作。析工作。Stata有什么优势?有什么优势?1。Stata 的命令语句极为简洁明快,易学易记。的命令语句极为简洁明快,易学易记。2。强大的帮助信息。强大的帮助信息。 本地帮助本地帮助 H
2、elp 命令名命令名 在线帮助在线帮助Findit 命令名命令名3。始终处于计量经济学和统计学的最前沿。许多。始终处于计量经济学和统计学的最前沿。许多Stata 程序员会针对计量经济学发展编写一些最新程序员会针对计量经济学发展编写一些最新的程序(的程序(ADO 文件),文件), Stata提供了严谨、简练提供了严谨、简练而灵活的程序语句,用户可以编写自己的命令和函而灵活的程序语句,用户可以编写自己的命令和函数,同时可随时到数,同时可随时到Stata 网站寻找并下载最新的升网站寻找并下载最新的升级文件。下载后可以直接使用,也可以自行修改、级文件。下载后可以直接使用,也可以自行修改、添加功能。(例
3、如当前流行的面板单位根和面板门添加功能。(例如当前流行的面板单位根和面板门限数据,均可以安装下载使用)限数据,均可以安装下载使用)学习有什么困难?学习有什么困难?1。不同于以往的软件较多的运用菜单,。不同于以往的软件较多的运用菜单,Stata较多运用命令操作。(菜单很难记住较多运用命令操作。(菜单很难记住和找到)。和找到)。2。目前国内相关教材较少。目前国内相关教材较少。3。有些计量方法需要编程(如极大似然估。有些计量方法需要编程(如极大似然估计),编程需要一定的计算机基础(不是我计),编程需要一定的计算机基础(不是我们学习的重点)。们学习的重点)。版本说明版本说明最新版本最新版本Stata
4、12我们使用的我们使用的 Stata10.0stata 10包括四种版本:包括四种版本:Small(小型版)、(小型版)、IC(标准版)、(标准版)、SE(特殊版)和(特殊版)和MP(多处(多处理器版)。其中属理器版)。其中属MP版本最为强大。版本最为强大。MP版版与与SE版的功能完全相同,但版的功能完全相同,但MP版的运算速度版的运算速度比比SE版的要快很多。用户可以在命令栏输入版的要快很多。用户可以在命令栏输入 about 查看所安装的查看所安装的Stata所属的版本。所属的版本。不同版本对样本容量、变量个数、矩阵阶数、不同版本对样本容量、变量个数、矩阵阶数、宏的字符长度等有着不同的限制。
5、以宏的字符长度等有着不同的限制。以SE版为版为例,其最大变量个数为例,其最大变量个数为32767,最大字符长,最大字符长度为度为244字节,最大矩阵阶数为字节,最大矩阵阶数为11000(即(即11000 11000)。)。Stata默认值为:最大变默认值为:最大变量个数为量个数为5000,最大矩阵阶数为,最大矩阵阶数为400,最大,最大内存为内存为10兆。如果用户需要更多的内存或者兆。如果用户需要更多的内存或者更多的变量,可以在命令栏输入如下命令进更多的变量,可以在命令栏输入如下命令进行扩展。行扩展。set maxvar 5000 set memory 50m Stata的窗口介绍的窗口介绍结
6、果窗口结果窗口:位于界面右上部,软件运行中的:位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。窗口中会使用不同错信息等均在这里列出。窗口中会使用不同的颜色区分不同的文本,如白色表示命令,的颜色区分不同的文本,如白色表示命令,红色表示错误信息。红色表示错误信息。命令窗口命令窗口:位于结果窗口下方,相当于:位于结果窗口下方,相当于DOS 软件中的命令行,此处用于键入需要执行的软件中的命令行,此处用于键入需要执行的命令,回车后即开始执行,相应的结果则会命令,回车后即开始执行,相应的结果则会在结果窗口中显示出来。在结果窗口中
7、显示出来。命令回顾窗口命令回顾窗口:即:即review 窗口,位于界面左窗口,位于界面左上方,所有执行过的命令会依次在该窗口中上方,所有执行过的命令会依次在该窗口中列出,选中某一行单击后命令即被自动拷贝列出,选中某一行单击后命令即被自动拷贝到命令窗口中;如果需要重复执行,用鼠标到命令窗口中;如果需要重复执行,用鼠标双击相应的命令行即可。双击相应的命令行即可。变量名窗口变量名窗口:位于界面左下方,列出当前数:位于界面左下方,列出当前数据集中的所有变量名称。据集中的所有变量名称。 其他窗口一般使用时会自动跳出。其他窗口一般使用时会自动跳出。我们以我们以auto数据源为例使用上述窗口。数据源为例使用
8、上述窗口。Stata的菜单介绍的菜单介绍最重要的菜单项:最重要的菜单项:Data菜单菜单Graphic菜单菜单Statistics菜单菜单每执行一个菜单性会自动产生相应的命令。(我们每执行一个菜单性会自动产生相应的命令。(我们以以summarize和和regress为例加以阐述)。为例加以阐述)。我们的讲述以命令方式为主。我们的讲述以命令方式为主。安装指南安装指南分为安装版和简易版分为安装版和简易版安装版:安装版: (部分(部分vista机器不支持)机器不支持)解压解压 setup.rar运行运行 setup安装时选择安装时选择 Stata SE安装到安装到C盘或者盘或者D盘(最好盘(最好D盘
9、)盘)安装完毕安装完毕第一次运行会出现注册信息,此时需运第一次运行会出现注册信息,此时需运行行keygen文件,将注册数据贴入。文件,将注册数据贴入。Stata的文件的文件最重要的有三类文件最重要的有三类文件1。文件名。文件名.dta 数据文件数据文件2。文件名。文件名.do 命令文件命令文件3。文件名。文件名.ado 程序文件程序文件Stata的目录结构及打开文件的操作的目录结构及打开文件的操作如果不加改变,安装时如果不加改变,安装时Stata会将系统程序安会将系统程序安装到:装到:C:Program filestata10 中。中。将所用系统自带的一些系统数据、应用程序、将所用系统自带的一
10、些系统数据、应用程序、帮助文件安装到帮助文件安装到C:Program filestata10adobase 中中将所有升级程序安装到:将所有升级程序安装到:C:Program filestata10adoupdate 中中Stata自带的示例数据表自带的示例数据表为了方便大家学习,为了方便大家学习,stata中有很多自带示中有很多自带示例数据,绝大部分数据都是美国的一些真实例数据,绝大部分数据都是美国的一些真实统计数据,较新的数据和统计资料可以到统计数据,较新的数据和统计资料可以到stata网站中下载。网站中下载。文件的打开文件的打开1。所有的系统示例数据可以利用。所有的系统示例数据可以利用s
11、ysuse命命令打开。令打开。2。用户自己的统计数据需要用。用户自己的统计数据需要用use命令打开。命令打开。use命令默认打开命令默认打开 C:data 或者或者 D:data中的数据。中的数据。3。如果需要打开其他文件夹的数据,必须改。如果需要打开其他文件夹的数据,必须改变目录(例如,将自己的数据放入变目录(例如,将自己的数据放入D:abc) cd D:abc” 或者直接或者直接 file-openStata命令的规定命令的规定1。Stata的命令一定要区分大小写,除了极的命令一定要区分大小写,除了极个别的情况下,个别的情况下,stata命令全部用小写。命令全部用小写。 2。大部分命令可以
12、缩写。大部分命令可以缩写。使用缩写可以使使用缩写可以使stata的命令书写大为简化:的命令书写大为简化:例如:例如: display-di summarize-sum describe-des得到正确命令缩写的简单方法:看得到正确命令缩写的简单方法:看help。几条最简单的命令几条最简单的命令use 打开数据文件,一般加打开数据文件,一般加clear选型清空选型清空内存中现有数据。内存中现有数据。sysuse 打开系统数据文件。打开系统数据文件。describe 描述数据描述数据edit 利用数据编辑器进行数据编辑利用数据编辑器进行数据编辑list 类似于类似于edit,但只能显示不能修改数据
13、。,但只能显示不能修改数据。display 显示计算结果。经常写为:显示计算结果。经常写为: disummarize 求某个变量的观察值个数、平求某个变量的观察值个数、平均值、标准差、最小值和最大值。经常写为:均值、标准差、最小值和最大值。经常写为:sumscatter 生成两个变量的散点图。生成两个变量的散点图。set obs 定义样本个数定义样本个数(使用前一定要用使用前一定要用drop或者或者clear命令清空当前样本命令清空当前样本)generate 建立新变量并赋值。经常写为建立新变量并赋值。经常写为gen几个简单的例子几个简单的例子diusesysusesumscatter gen
14、 举例:画出举例:画出Y=X2的曲线图的曲线图drop _all (drop data from memory)set obs 100 (make 100 observations)gen x = _n (x = 1, 2, 3, ., 100)gen y = x2 (y = 2, 4, 9, ., 10000)scatter y x (make a graph)命令格式简介命令格式简介stata命令格式命令格式by varlist: command varlist =exp if exp in range weight , options1。Command 命令动词,经常用缩写。命令动词,经
15、常用缩写。2。varlist 表示一个变量或者多个变量,多表示一个变量或者多个变量,多个变量之间用空格隔开。如个变量之间用空格隔开。如 sum price weight3。 by varlist 分类信息分类信息 按照某一变量的按照某一变量的不同特性分类不同特性分类4。 =exp 赋值及运算赋值及运算5。 if exp 挑选满足条件的数据挑选满足条件的数据6。 in range 对数据进行范围筛选对数据进行范围筛选7。 Weight 给数据赋一个权重给数据赋一个权重8。 , options 命令增加一些可选信息命令增加一些可选信息下面通过多个例子详解以上参数。下面通过多个例子详解以上参数。St
16、ata数据处理数据处理1。Stata的数据格式为的数据格式为 文件名文件名.dta2。对于系统自带数据文件,任何情况下可以。对于系统自带数据文件,任何情况下可以用用 sysuse 命令打开。命令打开。3。对于。对于C:data(或者或者D:data)下的文件,下的文件,可以使用可以使用use命令打开。命令打开。4。 放在其他目录的文件可以利用设置目录放在其他目录的文件可以利用设置目录或者或者“打开打开” 菜单打开。菜单打开。Stata数据类型数据类型数值型:用数值型:用0、1、29 及及+、(正负号)与小数(正负号)与小数点和点和( )来表示。来表示。字符型:字符串变量由字母数字或一些特殊的符
17、号字符型:字符串变量由字母数字或一些特殊的符号组成(如地名、住址,职业等等)。组成(如地名、住址,职业等等)。注意:数字不表示大小信息,如电话、身份证号等。注意:数字不表示大小信息,如电话、身份证号等。 字符型数据必须要加字符型数据必须要加 “”“”。日期型:在日期型:在Stata中,中,1960 年年1 月月1 日被认为是第日被认为是第0 天,因此天,因此1959 年年12 月月31 日为第日为第-1天,表示形天,表示形式为:式为:jan/10/2001或者或者10jan2001。Stata数据的录入数据的录入1。直接录入。直接录入。2。在。在Excel或者记事本文件编辑好后导入。或者记事本
18、文件编辑好后导入。numberenglish mathfinance1001907690100287728010037680851。直接录入。直接录入。利用利用data editor2。在。在Excel或者记事本文件编辑好后导入。或者记事本文件编辑好后导入。直接粘贴直接粘贴import导入(必须将导入(必须将excel文件存成文件存成csv格式)格式)除了除了csv格式,还可以导入格式,还可以导入txt格式和格式和raw格式。格式。练习:利用练习:利用import方法将方法将wage1.csv导入。导入。添加标签添加标签打开打开wage1数据文件。数据文件。1。为整个数据添加标签:例如,将数据
19、命名为。为整个数据添加标签:例如,将数据命名为“工工资表资表”。 菜单:菜单:Data-Labels-Label dataset 命令:命令:label data “工资表工资表“2。为变量增加标签,例如,给变量。为变量增加标签,例如,给变量wage增加标签增加标签“年工资总额年工资总额” 菜单:菜单:Data-Labels-Label variables 命令命令 label variable wage “年工资总额年工资总额” 自己练习:为下列变量增加标签自己练习:为下列变量增加标签educ:受教育年限。:受教育年限。exper:工龄。:工龄。tenure:现有岗位任期。:现有岗位任期。为
20、变量值增加标签为变量值增加标签例如:为变量例如:为变量marrid添加数值标签添加数值标签marry:1=married; 0=Unmarried 菜单:菜单:Data-Labels-Label values-Define or modify label values Data-Labels-Label values-Assign label values to variable 命令:命令:. label define marry 1 “married” 0 “unmarried. label values married marry使用tabstat命令计算描述性统计量1.使用stat()
21、输出统计指标:观测值的个数、均值、中位数、标准差、偏度和峰度。Tabstat wage lwage, stat(count mean p50 sd skew kurt)Bwt,还可以增加col(stat)选项使结果更便于分析和对比。2.还可以加入by选项和long选项,例如Tabstat wage lwage, by(female) stat(.) col(stat) longStata作图作图STATA 提供各种曲线类型,包括点提供各种曲线类型,包括点(scatter)、线()、线(line)、面()、面(area),直),直方图(方图(histogram)、)、条形图(条形图(bar)、饼
22、图()、饼图(pie)、函数曲线)、函数曲线(function)以及矩阵图()以及矩阵图(matrix)等。)等。同时,对时间序列数据有以同时,对时间序列数据有以ts 开头的一系列开头的一系列特殊命令,如特殊命令,如tsline。还有一类是对双变量的。还有一类是对双变量的回归拟合图(回归拟合图(lfit、qfit 、lowess)等。)等。作图时命令方式比较复杂,建议多用菜单方式。作图时命令方式比较复杂,建议多用菜单方式。一起来做下列图形:一起来做下列图形:1。mpg 与与 weight的散点图的散点图2。 mpg 与与 weight的散点图的散点图3。 price 与与 weight 均值的
23、条形图均值的条形图4。国产车与进口车价格的饼图。国产车与进口车价格的饼图5。Mpg的直方图,并检验是否服从正态分布。的直方图,并检验是否服从正态分布。组合图形:组合图形:画出画出price与与weight的散点图,并画出其拟的散点图,并画出其拟合线。合线。图形界面设计:图形界面设计:图形标题,图形标题,X轴标志,轴标志,Y轴标志,样式选择,轴标志,样式选择,图例,分组标志。图例,分组标志。建立回归方程建立回归方程打开系统文件打开系统文件auto,建立如下方程:,建立如下方程: sysuse auto,clear regress price mpg weight foreign打开文件打开文件s
24、core,建立如下方程:,建立如下方程: use score,clear reg testscr str _cons 6 69 98 8. .9 93 33 3 9 9. .4 46 67 74 49 91 1 7 73 3. .8 82 2 0 0. .0 00 00 0 6 68 80 0. .3 32 23 31 1 7 71 17 7. .5 54 42 28 8 str - -2 2. .2 27 79 98 80 08 8 . .4 47 79 98 82 25 56 6 - -4 4. .7 75 5 0 0. .0 00 00 0 - -3 3. .2 22 22 29 98
25、8 - -1 1. .3 33 36 66 63 37 7 testscr Coef. Std. Err. t P|t| 95% Conf. Interval Total 1 15 52 21 10 09 9. .5 59 94 4 4 41 19 9 3 36 63 3. .0 03 30 00 05 56 6 Root MSE = 1 18 8. .5 58 81 1 Adj R-squared = 0 0. .0 04 49 90 0 Residual 1 14 44 43 31 15 5. .4 48 84 4 4 41 18 8 3 34 45 5. .2 25 52 23 35 5
26、3 3 R-squared = 0 0. .0 05 51 12 2 Model 7 77 79 94 4. .1 11 10 00 04 4 1 1 7 77 79 94 4. .1 11 10 00 04 4 Prob F = 0 0. .0 00 00 00 0 F( 1, 418) = 2 22 2. .5 58 8 Source SS df MS Number of obs = 4 42 20 0结果分析结果分析回归后预测值的获得回归后预测值的获得Predict1。拟合值的获得:。拟合值的获得:predict yhat, xb 或者或者 predict yhat2。残差的获得。残差的
27、获得predict e , residuals 或者或者 predict e, res3. 比较比较Y的拟合值和的拟合值和Y的真实值的真实值list testscr yhat e4. 显示残差的统计特征。显示残差的统计特征。hist e,normal作业:作业:EXCEL文件中的例题文件中的例题4-2包含如下信息:某市包含如下信息:某市城镇居民城镇居民1979-1992当年新增储蓄当年新增储蓄Yi(亿元亿元)和可支配收入和可支配收入Xi(亿元亿元)的观测数据。的观测数据。 建立方建立方程:程: Y=b0+b1X1. 将数据导入到将数据导入到stata中,另存为中,另存为consumption.dta。2. 画出画出Y与与X的散点图。的散点图。3. 建立回归方程并说明截距和斜率的含义。建立回归方程并说明截距和斜率的含义。4. 方程的拟合优度和回归标准误差是多少?方程的拟合优度和回归标准误差是多少?5. 计算残差的平方和。计算残差的平方和。