《中国工业企业数据库与Stata简介讲述ppt课件.ppt》由会员分享,可在线阅读,更多相关《中国工业企业数据库与Stata简介讲述ppt课件.ppt(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、宏观经济分析与政策模拟讨论班宏观经济分析与政策模拟讨论班中国工业企业数据库与中国工业企业数据库与StataStata简介简介1、中国工业企业数据库介绍2、数据格式转换Stat-Transfer软件介绍3、Stata12介绍4、Stata操作实例主 要 内 容1.数据库介绍 中国工业企业数据库来源于国家统计局。数据库的统计对中国工业企业数据库来源于国家统计局。数据库的统计对象为规模以上工业企业,包括全部国有工业企业和年主营象为规模以上工业企业,包括全部国有工业企业和年主营业务收入业务收入 500 万元及以上的非国有工业企业,与万元及以上的非国有工业企业,与中国统中国统计年鉴计年鉴的工业部分和的工
2、业部分和中国工业统计年鉴中国工业统计年鉴的覆盖范围的覆盖范围一致。区别是工业企业数据库是企业层面的原始数据,而一致。区别是工业企业数据库是企业层面的原始数据,而“年鉴年鉴”是按不同维度得到的加总数据。是按不同维度得到的加总数据。 截止截止 2011 年,数据库共收录了年,数据库共收录了 58 万多家工业企业,占万多家工业企业,占中国工业总产值的中国工业总产值的95%左右,覆盖了中国工业左右,覆盖了中国工业40多个大类、多个大类、90多个中类、多个中类、600多个小类,每个企业提供超过上百个变多个小类,每个企业提供超过上百个变量,是目前国内最为全面和权威的企业层面数据。该数据量,是目前国内最为全
3、面和权威的企业层面数据。该数据库是我国经济学和管理学研究领域的重要资料,利用该数库是我国经济学和管理学研究领域的重要资料,利用该数据库已有很多学者做出了非常有价值的研究成果。受数据据库已有很多学者做出了非常有价值的研究成果。受数据取得难度的限制,拥有该数据库的研究机构在国内还并不取得难度的限制,拥有该数据库的研究机构在国内还并不多,因此该数据库在研究领域有广阔的应用前景。多,因此该数据库在研究领域有广阔的应用前景。 1.数据库介绍1.数据库介绍 数据库里的企业用数据库里的企业用“法人代码法人代码”(FRDM)作为标志。数)作为标志。数据库覆盖的企业不会一成不变,每年都有新增企业和减少据库覆盖的
4、企业不会一成不变,每年都有新增企业和减少企业,绝大部分企业的资料是连续的。尽管原则上每个企企业,绝大部分企业的资料是连续的。尽管原则上每个企业的法人代码不会改变,在极少数情况下,企业会改换企业的法人代码不会改变,在极少数情况下,企业会改换企业名称或法人代码。数据库从业名称或法人代码。数据库从1995年开始,最近更新到年开始,最近更新到2011年。年。1.数据库介绍 数据库对每个企业给出两类信息,一是企业经营成果有关数据库对每个企业给出两类信息,一是企业经营成果有关的信息,包括资金流量表、资产负债表和损益表的主要信的信息,包括资金流量表、资产负债表和损益表的主要信息,以及雇用员工和生产活动信息;
5、二是对企业身份、生息,以及雇用员工和生产活动信息;二是对企业身份、生产经营活动内容和状态进行定性描述的信息,以代码的形产经营活动内容和状态进行定性描述的信息,以代码的形式出现,在使用时需要使用参照代码表。式出现,在使用时需要使用参照代码表。 2.Stat-Transfer介绍Transfer软件专用于转换不同格式的数据文件,软件专用于转换不同格式的数据文件,Access 数据通过数据通过 Transfer软件可转换为软件可转换为 Stata 格式的数据。格式的数据。(1)数据转换)数据转换( Transfer)选项卡选项卡(2)变量选择)变量选择( Variables)选项卡选项卡(3)记录选
6、择)记录选择( Observations)选项卡选项卡 (4)其他选项)其他选项( Option)选项卡选项卡 在在Transfer这个界面上,通过几个下拉式菜单,选择需要这个界面上,通过几个下拉式菜单,选择需要转换数据库的源文件和目标文件的类型、名称,点击转换转换数据库的源文件和目标文件的类型、名称,点击转换(Transfer) 就可实现数据间的简单转换。软件支持的数据就可实现数据间的简单转换。软件支持的数据类型包括我们常用的类型包括我们常用的SAS、SPSS、STATA、S-Plus、Excel、Epi Info等等。等等。 如果在转换数据时,只对其中的一部分观察值感兴趣,如果在转换数据时
7、,只对其中的一部分观察值感兴趣, 可可以利用以利用 “变量选择变量选择”或者或者 “记录选择记录选择”,进行部分数据转,进行部分数据转换。换。2.Stat-Transfer介绍 在变量选择上,可选择全部变量,亦可选择部分变量,同时在变量选择上,可选择全部变量,亦可选择部分变量,同时还可在转换中重新设置变量输出的数据类型还可在转换中重新设置变量输出的数据类型,如浮点型如浮点型(float),日期型日期型(date),时间型时间型(time),字符型字符型(string) 等。软件还支持等。软件还支持优化优化(Optimize)功能;功能;Use Doubles选项在转换时可将有小选项在转换时可将
8、有小数位的变量设置成双精度型数位的变量设置成双精度型 (double),保证数据的精度;,保证数据的精度;Drop Constants选项,则自动将变量值恒为常数或缺失值选项,则自动将变量值恒为常数或缺失值的变量略去,这在数据繁多时特别能体现出其优越性。的变量略去,这在数据繁多时特别能体现出其优越性。2.Stat-Transfer介绍 在记录选择上,可选择全部记录,亦可选择部分记录。这一在记录选择上,可选择全部记录,亦可选择部分记录。这一部分的记录选取,用户可以通过条件限定来实现。如:要求部分的记录选取,用户可以通过条件限定来实现。如:要求Variable1的值大于的值大于300或者或者Var
9、iable2的值为偶数,在选项卡的值为偶数,在选项卡的文本框中输入相应的约束条件:的文本框中输入相应的约束条件:where Variable1 300,或者或者 where Variable2%2=0。还可以利用软件自带的函数来。还可以利用软件自带的函数来实现一些较复杂的数据选取,例如,按实现一些较复杂的数据选取,例如,按20%比例进行简单随比例进行简单随机抽样机抽样(where samp_rand(0.2),按,按10%比例进行系统抽样比例进行系统抽样(间隔抽样间隔抽样) (where samp_syst(10)。 2.Stat-Transfer介绍 Transfer软件还提供了一些其它的功
10、能,软件还提供了一些其它的功能, 如在转换过程中如在转换过程中更换变量名,自动运行变量输出类型的优化功能,设置日更换变量名,自动运行变量输出类型的优化功能,设置日期时间型数据的读写格式,对缺失值的各种处理方式的设期时间型数据的读写格式,对缺失值的各种处理方式的设定,随机种子的产生或设定,设置文本格式文件的读取格定,随机种子的产生或设定,设置文本格式文件的读取格式,式,Excel工作簿中工作表的选取,覆盖文件前确认提示等工作簿中工作表的选取,覆盖文件前确认提示等其它功能。其它功能。2.Stat-Transfer介绍3.Stata12 介绍 Stata软件是现今较为流行的统计计量分析软件,具有强软
11、件是现今较为流行的统计计量分析软件,具有强大的数据处理和分析功能,且操作简单、使用灵活、易学大的数据处理和分析功能,且操作简单、使用灵活、易学易用、运行速度极快。易用、运行速度极快。Stata的另一个特点是它的许多高的另一个特点是它的许多高级统计模块均是编程人员用宏语言写成的程序文件级统计模块均是编程人员用宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。文件),这些文件可以自行修改、添加和下载。 安装好安装好 Stata 后,点击电脑桌面上的后,点击电脑桌面上的Stata 图标,即可打图标,即可打开开Stata。此时可以看到,在最上方有一排菜单,即。此时可以看到,在最上方
12、有一排菜单,即“File Edit Data Graphics Statistics User Window Help”。在。在此之下,有五个窗口,分别为:此之下,有五个窗口,分别为:左上左上 “Review”(历史窗口):记录着自启动(历史窗口):记录着自启动Stata以来的命令。以来的命令。右上右上“Variables”(变量窗口):记录着(变量窗口):记录着Stata 内存中的所有变量。内存中的所有变量。右下右下“Properties”(性质窗口性质窗口):显示当前数据文件与变量的性质:显示当前数据文件与变量的性质中上中上“Results”(结果窗口):显示执行(结果窗口):显示执行St
13、ata 命令后的输出结果。命令后的输出结果。中下中下“Command”(命令窗口):在此窗口输入(命令窗口):在此窗口输入Stata 命令。命令。3.寻求帮助与网络资源 通过多种途径可以获得通过多种途径可以获得 Stata 的帮助,主要的途径有三个:的帮助,主要的途径有三个:手册、手册、 Stata 自带帮助和网络帮助。自带帮助和网络帮助。 Stata手册是一本学手册是一本学习习Stata使用的权威书籍,它按字母顺序排列出了使用的权威书籍,它按字母顺序排列出了Stata所所有相关的命令。有相关的命令。 Stata的的自带帮助系统是使用最方便,也自带帮助系统是使用最方便,也是最常用的方法是最常用
14、的方法 ,我们可以在记住极少量基本命令的基,我们可以在记住极少量基本命令的基础上,方便地运用础上,方便地运用Stata命令。命令。3.help和search Stata自带帮助系统:自带帮助系统: help 显示出显示出Stata所有帮助内容的目录结构。所有帮助内容的目录结构。比如比如想了解想了解regress的用法,可在的用法,可在Stata Command中输中输入如下语句:入如下语句: help regress Stata会提供关于会提供关于regress用法的详细说明,并配以用法的详细说明,并配以例子。例子。3.help和search 网络帮助可以采用如下命令获得网络帮助可以采用如下命
15、令获得 findit scat3 search scat3 这两条命令等价,均为寻找绘三维立体图的命令这两条命令等价,均为寻找绘三维立体图的命令scat3。由于由于scat3不是不是Stata内置命令,所以需要通过这两个命令内置命令,所以需要通过这两个命令搜索并下载安装后才能使用。搜索并下载安装后才能使用。 区别:区别:help用于查找精确的命令名,用于查找精确的命令名,search是模糊查找,是模糊查找,findit与与search命令类似,但其可以进一步搜索网络上的命令类似,但其可以进一步搜索网络上的信息。信息。3.几个主要的网站(1) STATA公司官方网站公司官方网站http:/ (2
16、) STATA资源链接资源链接http:/ (3) STATA出版社出版社http:/www.stata- (4) STATA电子杂志电子杂志http:/www.stata- (5) STATA技术公告版技术公告版http:/ Stata 的日志的日志 4.2 do文件文件4.3 数据导入数据导入4.4 变量的生成与处理变量的生成与处理4.5 数据的合并数据的合并4.6 数据类型转换数据类型转换4.7 描述统计描述统计4.8 画图画图4.9 回归分析回归分析4.1 Stata 的日志 log文件以后缀文件以后缀“.log”表示,用于记录表示,用于记录Stata的运行结果。的运行结果。可点击菜单
17、可点击菜单“File”“Log”“Begin”,然后输入日志,然后输入日志(log)的文件名,并存储在指定的位置。此后,在)的文件名,并存储在指定的位置。此后,在Stata中的所有操作及其输出结果,都将被记录在此日志中的所有操作及其输出结果,都将被记录在此日志中,直至选择退出。中,直至选择退出。 如果要暂时关闭日志(不再记录输出结果),输入命令如果要暂时关闭日志(不再记录输出结果),输入命令“log off”。如果要恢复使用日志,输入命令。如果要恢复使用日志,输入命令“log on”。如果要彻底退出日志,输入命令如果要彻底退出日志,输入命令“log close” 。如果要。如果要查看日志文件中
18、的内容,点击存储位置上的日志文件图查看日志文件中的内容,点击存储位置上的日志文件图标即可。标即可。4.1 Stata 的日志 例:例: (开始运行)(开始运行) log using D:Econometricslogfiles20150510.log . (Stata命令)命令) . log close (结束运行)(结束运行) 从而从而20150510.log就记录了从就记录了从“log using”命令到命令到“log close”命令之间命令之间Stata运行的所有结果。运行的所有结果。4.2 do文件 用用Stata的的do文件编辑器记下做过的工作:在文件编辑器记下做过的工作:在Sta
19、ta窗口窗口上部的工具栏中有一个小按钮上部的工具栏中有一个小按钮 ,把鼠标放上去会出现,把鼠标放上去会出现“New Do-file Editor”,点击它就会出现,点击它就会出现do文件编辑文件编辑器。器。 在在do-file文件中,用文件中,用*表示注释内容,表示注释内容,Stata在运行在运行do-file文件时会跳过这些注释语句。文件时会跳过这些注释语句。4.3 将数据导入Stata 打开打开Stata 软件后,点击软件后,点击Data Data Editor图标,即可图标,即可打开一个类似打开一个类似Excel的空白表格。然后,用的空白表格。然后,用Excel打开文件,打开文件,复制文
20、件中的相关数据,并粘贴到复制文件中的相关数据,并粘贴到Data Editor中。中。 导入数据的另一方法是,点击菜单导入数据的另一方法是,点击菜单“File”“Import”,然,然后导入各种格式的数据。后导入各种格式的数据。 Stata默认的数据文件扩展名为默认的数据文件扩展名为.dta,打开,打开stata内置的内置的auto.dta数据库,命令:数据库,命令:use auto注意:注意:Stata 中字母的大小写是严格区分的,因此中字母的大小写是严格区分的,因此Stata 建议对于变量名建议对于变量名一律使用小写字母。一律使用小写字母。4.3 将数据导入Statause命令的基本语句,具
21、体格式如下:命令的基本语句,具体格式如下: use varlist if in using filename , clear nolabel含义说明:含义说明:use是打开数据的命令语句,是打开数据的命令语句,varlist代表变量名代表变量名 称,称,if是条件语句,是条件语句,in是范围语句,是范围语句,using filename代表数据代表数据 文件路径。文件路径。(1)打开数据文件中的全部数据)打开数据文件中的全部数据如果想要打开如果想要打开auto数据文件中的全部数据,输入命令:数据文件中的全部数据,输入命令: use autoauto.dta美国汽车产业的横截面数据美国汽车产业的
22、横截面数据(1978年年) ,变量主要包括:,变量主要包括:price=汽车的汽车的价格,价格,mpg=每加仑油所行驶的英里数,每加仑油所行驶的英里数,weight=汽车的重量,汽车的重量,foreign表示是否表示是否是进口车,如果是进口车,如果foreign=0代表是国产车,如果代表是国产车,如果foreign=1代表是进口车。代表是进口车。4.3 将数据导入Stata(2)打开数据文件中的部分变量)打开数据文件中的部分变量有时,并不需要将数据文件中的所有变量全部打开,因为有时,并不需要将数据文件中的所有变量全部打开,因为原始数据内容丰富,含有很多变量,而研究可能只涉及其原始数据内容丰富,
23、含有很多变量,而研究可能只涉及其中的几个变量。所以若只打开中的几个变量。所以若只打开auto文件中的文件中的make和和price这两个变量,应该使用如下命令:这两个变量,应该使用如下命令:use make price using autouse make price部分表示需要打开部分表示需要打开make和和price两个变量,两个变量,using auto部分表示打开的数据文件路径及名称部分表示打开的数据文件路径及名称。4.4 变量生成与处理(1)生成新变量)生成新变量 命令格式:命令格式:generate newvar = exp if exp in range 含义说明:含义说明:ne
24、wvar是生成的新变量,是生成的新变量,exp是由现有变量是由现有变量 生成新变量的算术或逻辑表达式,生成新变量的算术或逻辑表达式,if exp 和和in range指指 定对哪些观测计算新变量值。定对哪些观测计算新变量值。 比如:比如:gen a = f314*f314 (新变量(新变量a等于等于f314的平方)的平方) gen F= f314/v210 变量含义:变量含义:f314固定资产净值年平均余额固定资产净值年平均余额 v210从业人员平均人数从业人员平均人数4.4 变量生成与处理(2)对现有变量重新赋值)对现有变量重新赋值 命令格式:命令格式: replace oldvar = e
25、xp if exp in range 含义说明:含义说明: oldvar为现有的变量。对满足为现有的变量。对满足if exp和和in range的样本,的样本,oldvar将根据表达式将根据表达式exp重新赋值。重新赋值。 比如:比如:replace v211=. if v211=0 (若工业增加值非正,(若工业增加值非正,令其取缺失值)令其取缺失值) replace v211=25 in 10 (令第(令第10个观测中个观测中v211为为25) gen和和replaceif常常在一起使用常常在一起使用4.4 变量生成与处理(3)改变变量名)改变变量名 命令格式:命令格式:rename old
26、var newvar 含义说明:含义说明:oldvar是原变量名,是原变量名, newvar是新变量名。是新变量名。 (4)删除变量或观测)删除变量或观测 drop varlist (去掉(去掉varlist指定的变量)指定的变量) drop _all (去掉全部变量)(去掉全部变量) drop if exp (去掉符合表达式去掉符合表达式exp的观测的观测) drop in range (去掉处在(去掉处在range指定范围内的观测)指定范围内的观测)4.4 变量生成与处理(5)保留变量或观测)保留变量或观测 keep varlist (保留(保留varlist指定的变量,其余变量去掉)指定
27、的变量,其余变量去掉) keep if exp (保留符合表达式保留符合表达式exp的观测,其余观测去掉的观测,其余观测去掉) keep in range (保留处在(保留处在range指定范围内的观测)指定范围内的观测)(6)观测排序)观测排序 命令格式:命令格式:sort varlist in , stable 含义说明:将全部观测按指定的变量按含义说明:将全部观测按指定的变量按升序升序排列。排列。varlist中可以有不止一个变量。中可以有不止一个变量。 比如:比如:sort B07 v209 (先将变量(先将变量B07进行排序,再在同进行排序,再在同一个一个B07的范围内对的范围内对v
28、209从小到大进行排序)从小到大进行排序)4.4 变量生成与处理(7)生成虚拟变量)生成虚拟变量 方法方法1: gen varname1 if (取值为一的限制条件)(取值为一的限制条件) replace varname0 if (取值为零的限制条件)(取值为零的限制条件) 方法方法2:基于类别变量生成虚拟变量命令:基于类别变量生成虚拟变量命令: tab oldvar, gen( newvar ) 比如:比如:tab b05,gen(b05dum) b05省地县码省地县码 虚拟变量的数目因已知变量的分类而异。若现存变量有两虚拟变量的数目因已知变量的分类而异。若现存变量有两个取值,则生成两个虚拟
29、变量。个取值,则生成两个虚拟变量。 方法方法3:Stata提供的提供的xi命令能很方便地实现对类别变量生命令能很方便地实现对类别变量生成虚拟变量。成虚拟变量。xi命令最基本的用法:命令最基本的用法: xi , prefix(string) i.varname varname是某一分类变量,设其共有是某一分类变量,设其共有K个可能的取值;个可能的取值;string是是prefix()指定的前缀。上述指令生成了指定的前缀。上述指令生成了K-1个虚拟个虚拟变量:变量:stringvarname_2, stringvarname_3, , stringvarname_K。其中。其中stringvarn
30、ame表示字符串表示字符串string和和varname的联合。如果不使用的联合。如果不使用, prefix(string)选项,则默认的前缀是选项,则默认的前缀是_I。 比如:比如:xi, prefix(_T) i.b054.4 变量生成与处理4.5 数据的合并 数据文件的合并涉及两个数据文件:在数据文件的合并涉及两个数据文件:在memory中的和不中的和不在在memory中的。称前者为原数据文件(中的。称前者为原数据文件(the master data),后者为新数据文件(),后者为新数据文件(the using data)。数据文)。数据文件的合并有两种情形。件的合并有两种情形。 若新数
31、据文件与原数据文件的变量完全一样,此时新数据若新数据文件与原数据文件的变量完全一样,此时新数据文件相当于新的观测,使用文件相当于新的观测,使用append命令:命令: append using filename 其中其中filename是新数据文件的文件名。是新数据文件的文件名。4.5 数据的合并 若新数据文件与原数据文件对应着同样的观测,但变量不若新数据文件与原数据文件对应着同样的观测,但变量不全一样,则使用全一样,则使用merge命令:命令: merge 1:1 varlist using filename 其中其中filename是新数据文件的文件名,是新数据文件的文件名,varlist
32、是合并的依是合并的依据,据,varlist(可以不止一个变量)取值一样的观测视为同(可以不止一个变量)取值一样的观测视为同一个观测。在合并之前,原数据文件和新数据文件都要先一个观测。在合并之前,原数据文件和新数据文件都要先按照按照varlist排序。如果除了排序。如果除了varlist外,原数据文件和新数外,原数据文件和新数据文件还有一部分变量是相同的。对这部分变量,据文件还有一部分变量是相同的。对这部分变量,merge命令有两个常用的选项。命令有两个常用的选项。4.5 数据的合并 merge 1:1 varlist using filename, update 将原数据文将原数据文件中的缺失
33、值替换成新数据文件中的相应值(前提是后者件中的缺失值替换成新数据文件中的相应值(前提是后者不缺失)。不缺失)。 merge 1:1 varlist using filename, update replace将原将原数据文件中的变量值替换成新数据文件中的相应值(前提数据文件中的变量值替换成新数据文件中的相应值(前提是两者不一样)。是两者不一样)。 在这两种情形下,在这两种情形下,merge自动生成一个指示变量自动生成一个指示变量_merge。该变量的不同取值,代表了合并的不同情形。但一般会连该变量的不同取值,代表了合并的不同情形。但一般会连续进行几次续进行几次merge操作,所以在完成一次操作
34、,所以在完成一次merge后应马上后应马上使用使用 drop _merge 指令将其去掉。指令将其去掉。4.6 变量类型转换 Stata通常把变量划分为三类:数值型,字符型和日期型通常把变量划分为三类:数值型,字符型和日期型 字符型变量之间不能进行数值计算,所以如果对字符型变量字符型变量之间不能进行数值计算,所以如果对字符型变量进行数值计算,进行数值计算,Stata则会提醒出现系统错误,这时必须将字则会提醒出现系统错误,这时必须将字符型变量转化成数值型变量,才能进行正确的计算。字符型符型变量转化成数值型变量,才能进行正确的计算。字符型变量转化成数值型变量命令:变量转化成数值型变量命令: des
35、tring varlist , generate(newvarlist)|replace options 这个命令语句中,这个命令语句中,varlist是进行数据转化的变量名称,是进行数据转化的变量名称,generate (newvarlist) | replace表示生成新的变量或者替换表示生成新的变量或者替换原来的变量,原来的变量,options的具体内容如表的具体内容如表2.3所示。所示。4.6 变量类型转换比如:比如:destring b10,gen(B10) ignore(“”) destring b10,gen(B10) force数值型变量转化为字符型变量:数值型变量转化为字符型
36、变量: tostring varlist, generate (newvarlist) | replace options4.7 描述统计 describe命令可以描述数据文件的整体,包括观测总数,命令可以描述数据文件的整体,包括观测总数,变量总数,生成日期,每个变量的存储类型,标签变量总数,生成日期,每个变量的存储类型,标签(label)等。)等。 如果数据文件不是很大,可以直接在如果数据文件不是很大,可以直接在Stata Results中显中显示数据,使用如下命令:示数据,使用如下命令:list varlist if in, options 其中,其中,varlist 是变量列表(即多个变
37、量,如变量是变量列表(即多个变量,如变量 1、变量、变量 2 直至变量直至变量 n),此处命令置于方括号中,说明变量列表),此处命令置于方括号中,说明变量列表可有可无。如果可有可无。如果 varlist 省略,则默认命令作用的对象为省略,则默认命令作用的对象为数据库中所有变量。数据库中所有变量。if 和和 in 均为可选条件。最后的均为可选条件。最后的 options 为可选项,在写命令时要置于逗号后。为可选项,在写命令时要置于逗号后。4.7 描述统计 summarize 命令:命令: summarize varlist weight if in ,detail summarize可以提供可以
38、提供varlist指定变量(可以不止一个)的如指定变量(可以不止一个)的如下统计量:下统计量:Percentiles(分位数)(分位数), Largest(四个最大的(四个最大的数)数),Smallest(四个最小的数)(四个最小的数),Mean(均值)(均值),Variance(方差)(方差),Std. Dev.(标准差)(标准差),Skewness(偏度)(偏度), Kurtosis(峰度)(峰度). 比如:比如:su mpg weight if foreign=14.7 描述统计 tabstat命令命令 tabstat varlist weight if in , stats(statn
39、ame .) tabstat提供提供, stats(statname .) 指定的统计量,可供选指定的统计量,可供选择的有择的有mean,count(非缺失观测值个数),(非缺失观测值个数),sum,max,min,range(最大值最小值),(最大值最小值),sd,var,cv(变易系(变易系数),数),skewness(偏度),(偏度),kurtosis(峰度),(峰度),median(中位数),(中位数),p1(1分位数,类似地有分位数,类似地有p5, p25, p50, p75, p95。 比如,想知道变量比如,想知道变量price在整个样本的均值和方差,可使用在整个样本的均值和方差,
40、可使用如下命令:如下命令: tabstat price , stats(mean var)4.8 画图 (1)Stata提供了非常强大的画图功能。画图与描述统计提供了非常强大的画图功能。画图与描述统计一样,都是要揭示单个变量的分布或多个变量之间的关系,一样,都是要揭示单个变量的分布或多个变量之间的关系,只是以图形的形式更为直观。在具体画图时,可以参看只是以图形的形式更为直观。在具体画图时,可以参看Stata的的Graphics Reference Manual或使用或使用help graph指指令。令。 (2)对单个变量,)对单个变量,Stata能画如下图案:能画如下图案: 直方图直方图 hi
41、stogram y (y是变量名,下同)是变量名,下同) 箱线图箱线图 graph box y 圆形图(饼图)圆形图(饼图) graph pie y 核密度函数核密度函数 kdensity y QQ图图 qnorm y (3)两个变量的散点图)两个变量的散点图 graph twoway scatter y x (y对对x的散点图)的散点图) graph twoway line y x (以(以x为横座标,为横座标,y为纵座标的为纵座标的点连成的折线)点连成的折线) graph twoway connected y x (以(以x为横座标,为横座标,y为纵为纵座标的点连成折线,但转角处特别标出)
42、座标的点连成折线,但转角处特别标出) graph twoway lfit y x (y对对x回归的回归直线)回归的回归直线)4.8 画图 (4)一个变量的总体统计量对另一个变量(一般为分)一个变量的总体统计量对另一个变量(一般为分类变量)的条形图类变量)的条形图 graph bar (mean) y, over (x) (y的平均值与的平均值与x的关系)的关系) graph bar (median) y, over (x) (y的中位数与的中位数与x的关系的关系) (5)多个变量的散点图)多个变量的散点图 graph matrix x1 x2 x3 x4 y (x1,x2,x3,x4,y两两之
43、间两两之间的散点图)的散点图)4.8 画图4.8 画图 有一些通用的选项可以给图形有一些通用的选项可以给图形“润色润色”: 标题标题 title(“string”) (string可为任意的字符串,下同)可为任意的字符串,下同) 脚注脚注 note(“string”) 横座标标题横座标标题 xtitle(“string”) 纵座标标题纵座标标题 ytitle(“string”) 横座标范围横座标范围 xaxis(a,b) (a|t| 95% Conf. Interval Total 635065396 73 8699525.97 Root MSE = 2130.8 Adj R-squared
44、= 0.4781 Residual 317812515 70 4540178.78 R-squared = 0.4996 Model 317252881 3 105750960 Prob F = 0.0000 F( 3, 70) = 23.29 Source SS df MS Number of obs = 74. regress price mpg weight foreign*结果保存sysuse auto,cleartabstat price weight length mpg rep78, / stats(mean sd min p50 max)c(s)f(%6.2f) * 【Word
45、】文档logout, save(mytable) word replace: / tabstat price weight length mpg rep78, / stats(mean sd min p50 max)c(s)f(%6.2f)*【Excel】文档logout, save(mytable) excel replace: / tabstat price weight length mpg rep78, / stats(mean sd min p50 max)c(s)f(%6.2f)主要参考书:社会统计分析与数据处理技术-STATA软件的应用,杨菊华著,中国人民大学出版社,2008年3月。 应用STATA做统计分析第5版,汉密尔顿著,郭志刚等译,重庆大学出版社,2008年。人有了知识,就会具备各种分析能力,明辨是非的能力。所以我们要勤恳读书,广泛阅读,古人说“书中自有黄金屋。”通过阅读科技书籍,我们能丰富知识,培养逻辑思维能力;通过阅读文学作品,我们能提高文学鉴赏水平,培养文学情趣;通过阅读报刊,我们能增长见识,扩大自己的知识面。有许多书籍还能培养我们的道德情操,给我们巨大的精神力量,鼓舞我们前进。