描述性分析与不平等的度量方法(共29页).doc

上传人:飞****2 文档编号:12039843 上传时间:2022-04-23 格式:DOC 页数:29 大小:445.50KB
返回 下载 相关 举报
描述性分析与不平等的度量方法(共29页).doc_第1页
第1页 / 共29页
描述性分析与不平等的度量方法(共29页).doc_第2页
第2页 / 共29页
点击查看更多>>
资源描述

《描述性分析与不平等的度量方法(共29页).doc》由会员分享,可在线阅读,更多相关《描述性分析与不平等的度量方法(共29页).doc(29页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、精选优质文档-倾情为你奉上经济计量方法与Stata应用讲义11. 描述性分析与不平等的度量方法孙志军北京师范大学经济与工商管理学院本章使用数据文件为1. 教育与工资1.dta2. 2005年广东省人口抽样数据.dta3. 农村家庭收入数据(甘肃2004).dta4. CHNS数据2004、2006年成人调查问卷有关数据。经济学的经验分析(Empirical Analysis)方法通常分为描述性分析和回归分析。描述性分析常用的方式是考察变量的分布特征,计算集中趋势(如平均值、中位数)和离散趋势(如方差、变异系数)等。它通常有两个作用,一个是在统计推断或因果分析之前,发现、界定或详细讨论要研究的问

2、题;另一个是验证假说。回归分析即是计量经济学中核心内容,可以说,回归分析和经济理论的结合就构成了计量经济学。它有两个基本特征,第一,回归模型(或称为经验模型)的建立要依赖经济理论,考虑一个简单回归模型:yabxu,如果是单纯的回归分析,则我们只要搜集到自变量x和因变量y的一个样本数据,就可以估计出参数a和b来。在计量经济学中,则首先要对x和y之间的关系的逻辑关系给出经济理论的解释,或者通过理论推导出上述回归模型来,而不是单纯的x和y之间的数据关系,这也就是我们在许多计量经济学文献中看到的,将回归模型称为结构模型(Structure Model)的原因。第二,上述特征决定了计量经济学中的回归分析

3、的作用是进行因果推断,即考察x和y之间的因果关系,这也正是经济理论的要求。回归分析在本书或其他计量经济学教材中是主要内容,本章只通过几个例子说明描述性分析的特征和用处。1.1 主要概念与简单描述性分析1.1.1 变量与数据所谓变量(variable)是指其值会变动、变化的量,与此相对的概念是常量或常数(constant)。变量的测量值或观察值则称为变量值,一个或多个变量及其测量值就构成了数据。了解变量和数据是从事计量经济分析要做的初步工作。1. 变量的类型变量包括定性变量和定量变量两类,在处理资料之前,首先要分清变量类型。观察下表中列出的变量及其取值,看看有什么区别?表1.1 变量的层次变量变

4、量的可能取值性别男;女风险厌恶程度非常厌恶、一般、不厌恶子女数目1个;2个;3个收入100元;150元;200元;定性变量又包括类别变量和有序变量两类。表1.1中“性别”这一变量,取值只有两类:男或女。像这样的变量就被称为类别变量。它的取值只有类别属性之分,而无大小、程度之分。根据变量值,只能知道研究对象是相同或是不同。如性别、婚姻、民族、专业、职业等等。从数学运算特性来看,类别变量只具有等于或不等于的性质。表1.1中“风险厌恶程度”变量的取值有程度或大小之分,或者有等级、次序差别。像这样的变量就称为有序变量。当然,这类变量也有类别属性,因而它的层次要高于类别变量。其数学运算性质除具有等于或不

5、等于外,还有大于或小于之分。常见的有序变量还有教育程度(文盲、小学、初中、高中、大学)、社会经济地位(上等、中等、下等)、积极性(很积极、一般、不积极)等等。表1.1中“子女数目”和“收入”这两个变量的值是有度量单位的数值,这些数值有大小之分,可以进行加减乘除,在进行加减乘除的数学运算后也具有实际的意义,比如200元除以100元等于2,表示前者是后者的2倍。像这样的变量称为定量变量、数值变量等。大多数数值变量都是连续性变量。在经验分析中,对于定性变量可以根据其类别或等级赋予数值,比如性别变量,可以赋予男性1,女性0;态度变量:非常厌恶0,一般1,不厌恶2。对这些变量赋予的数值,并没有实际的含义

6、,只是代表某种类别或等级。之所以这样做,是为了在分析中更为方便的缘故。这也是定性变量和定类变量在操作层面的主要区别。在回归分析中,定性变量则已一个虚拟(dummy)变量系列表示(详见后面的“基本线性模型”内容)。2. 数据的层次、类型与结构经济研究所用的数据包括了三个维度:层次、类型和结构。(1)数据层次数据的层次分为两类:微观数据和宏观数据(micro and macro data)。微观数据是指个体层面的数据,如本章下面所用的个体抽样调查数据就是微观层面的数据。宏观数据是指由个体数据汇总而出的数据,比如按照省份汇总每个人的教育水平、收入,就得到一个省级层面的宏观数据,像第一章的各省经济、投

7、资等数据也是一个宏观层面的数据。由于微观数据在经济研究中的应用越来越广泛,计量经济学也出现一个以微观计量经济分析命名的分支学科。(2)数据类型数据类型包括调查数据(survey data)、社会实验数据(data from Social Experiments)和自然实验数据(Data from Natural Experiments)。调查数据是指从总体中随机抽取一个样本进行调查而获得的数据,比如农村家庭收入调查数据。大量的研究使用的即是这类数据。社会实验数据是指采用实验室实验的设计思路,对经济或社会行为进行实验而获得的数据。比如,要研究小额信贷对农村家庭收入的影响,可以随机抽取一个农村家庭

8、样本,随机的给予一些家庭小额信贷,另一部分不给予,最后观察其收入,就构成了一个社会实验数据。自然实验数据是指在调查数据中根据某个变量可以将数据构造成类似社会随机实验的数据。这类数据在进行政策分析时特别有用。比如要考察我国的农村税费改革对农村家庭收入的影响,由于一部分地区先进行改革,而另一部分地区后进行改革,这样就类似于进行了一场实验,通过搜集改革前和改革后的数据,就构成了自然实验数据,从而评估税费改革的效果。(3)数据结构不同层次、不同类型的数据在结构上可以区分为以下四类:l 横截面数据(Cross-sectional data set):就是在给定时点对个人、家庭、企业、城市、省、国家或其他

9、单位采集的样本所构成的数据。像第一章经济和投资数据就是2006年这个时点上的一个中国各省的横截面数据。l 时间序列数据(Time series data set):由一个或几个变量不同时间的观测值所构成的数据。如19802010年某省的经济和投资数据就构成了一个时间序列数据。l 混合横截面数据(Pooled cross sectional data set):由不同时点上对总体进行抽样获得的横截面数据构成的数据。如在2005年和2010年分别对家庭抽样调查所获得的数据。l 面板或纵列数据(Panel data or Longitudinal data):由不同时点上对同一单位观测所获得的数据。

10、如19802010年中国各省的经济和投资数据。计量经济分析包括了上述不同层次、类型和结构的数据,除去基本的分析方法相近外,对不同数据还分别有不同的分析方法,以后的部分将对此做详细介绍。3. 描述性统计分析的基本内容描述性统计分析主要分为对变量的集中趋势和离散趋势的分析。根据变量的类型,描述性统计分析主要可以分为一下几类:(1)单变量描述统计是指对单一个变量的集中趋势和离散趋势的分析。根据变量的两种类型,对单变量描述统计分析的方法有所不同,又分为单定性变量的和单定量变量的描述统计分析。(2)定性定性变量描述统计在对经济现象的研究中,我们更感兴趣的探究两个或两个以上变量之间的关系。定性定性变量的描

11、述统计分析即是,当两个或两个以上的变量均为定性变量时,应用描述统计分析方法考察变量之间的关系。比如,我们想考察“风险态度是否存在性别差异”这个命题,就可以比较男性和女性在风险态度的频次分布上是否存在差异来进行,这就是定性定性变量的描述统计分析。(3)定性定量变量描述统计当一个变量为定类变量,一个为定量变量时,考察两者之间的关系就称为定性定量变量描述统计分析。比如我们关心收入上是否存在性别差异,就可以比较男性和女性的收入的平均水平来进行。4. 本节所用数据本章所用数据是一个微观个体抽样调查数据,数据总观测数为894个(个体),变量包括个体的性别、教育、工作单位以及年工资。详细内容见数据文件“教育

12、与工资1.dta”。这些变量的详细定义如下:表1.2 本节所用数据变量定义变量名含义值gender性别男性1;女性0schyear受教育年数(单位:年)016年schlevel受教育程度初中及以下1;高中2;大学3exp工作年数(单位:年)049年organise工作单位性质国有部门0;集体企业1;私营企业2;其他3wage年工资(单位:元)84080000元根据这个数据集,下面我们依次来讨论描述性统计分析的一些主要内容。1.1.2 单变量描述统计分析在进行更深入的研究之前,往往首先要对各个变量的分布特征有一个大概的了解,这就是单变量描述统计分析主要完成的事情。此外,在经济学研究中,对于经济不

13、平等或发展差异(如收入不平等、经济水平差距)的分析是一个重要领域,在统计学中这属于变量离散趋势的分析,本节也对此做了初步介绍。我们主要选取以下衡量集中趋势和离散趋势的指标进行说明。对于这些指标的计算原理,这里并不进行描述,你可以查阅相关的统计方面的书籍及其他资料,这里只是给出Stata的操作命令。表2.3给出了这些指标(或统计量)与STATA基本命令。表1.3 描述统计分析指标(或统计量)与STATA基本命令统计量名称含义STATA常用基本命令*频次衡量类别或有序变量的集中趋势。tabulate(tab)平均值与分位数衡量定量变量的集中趋势summarize(su); centile方差与标准

14、差衡量定量变量的离散趋势summarize(su)不平等指标衡量定量变量的离散趋势。常用的有:分组比例、变异系数(CV)、基尼系数(Gini)、广义熵指数(GE)与泰尔系数(Theil Index)inequal7注:*括号内为缩写。 STATA中常用的这些基本命令在下面的内容中也会用到。下面我们根据本章的数据“c2.1教育与工资1.dta”中的一些指标分别看看是如何操作的。基本描述性统计分析任务1 频次分析任务描述:总样本中不同性别、教育程度、工作单位的频次分布状况(1)性别分布tab gender在上述结果中,第1列显示的是变量的取值,第二列是频次,第三列是频率或百分比,第四列是累积频率或

15、累积百分比。结果显示,在总样本894个体中,男性占了56.26。(2)教育程度分布tab schlevel结果显示,在总样本中,初中及以下教育水平的个体占了21.25,高中的占了40.49,大学的占了38.26。(3)工作单位分布tab organise结果显示,样本中工作单位在国有部门(0)、集体企业(1)、私营企业(2)和其他部门(3)分别占了25.39、61.19、7.16和6.26,还可以看出,样本个体以来自国有部门和集体企业的为主,累积比例为86.58。任务2 平均值与方差任务描述:计算样本个体的平均工资与标准差,以及分别计算男性和女性的工资。(1)全部样本su wage(2)男性样

16、本su wage if gender=1(3)女性样本su wage if gender=0上述结果列出了各类个体的观测数(Obs)、平均值(Mean)、标准差(Std.Dev.)、最小值(Min)和最大值(Max)等概要统计量。可以看出,个体平均工资为9135.6元,其中男性9941.3元,女性8167.7元,从标准差来看,男性样本的工资的离散程度(或差异)大于女性。任务3 分位数计算男性样本10、20、90分位数。centile wage if gender=1,centile(10(10) 90)结果中第三列表示分位数,第四列表示相应的分位数的值。最后两列位95的置信区间。关于不平等的分

17、析方法与命令参加本部分1.2节以后的内容。1.1.3 定性定性变量描述统计分析上面的单变量描述统计只是告诉了我们某个指标的单一的集中或离散趋势,在研究中,我们更感兴趣的是比较不同组别的某些变量的差异或分布特征,把组别称为基准分类变量,如果要描述的变量是定性变量,就是定性定性变量描述性分析;如果是定量变量,则就是定性定量变量的描述性分析。这一节先来介绍前者的分析方法。不同性别的个体受教育程度的频次分布这里的性别是基准分类变量,受教育程度是关注的变量。要描述不同性别受教育程度的频次分布,可使用tabulate命令。其基本命令项为:tabulate varname1 varname2 if in w

18、eight , optionsvarname1、varname2为两个定性变量。通过添加选项,可以获得想要的结果。比如,要想获得男性和女性各自不同教育程度上的频次分布,可以添加row选项,要进行卡方检验,则可以添加chi2选项等等,详细可参见help文件。任务1:考察不同性别个体受教育程度的分布差异,并做卡方检验。tabulate gender schlevel,row chi2从上述结果可以看出,在女性样本中,有45的为高中教育,35为大学教育;在男性样本中,有37的为高中教育,41为大学教育。卡方检验显示两类个体的教育程度上在10的显著性水平上差异显著。还可以进行多维的频次分布分析,如下:

19、任务2 考察不同性别、不同教育程度在工作单位性质上的频次分布by gender, sort: tabulate schlevel organise,row从上述结果可以看出不教育程度的男性和女性在就业单位性质上的分布,比如,就受过高中教育的女性而言,有49在就业单位是集体企业,32的是国有部门;同样教育程度的男性样本中,有61的在集体企业,24的在国有部门。1.1.4 定性定量变量描述统计分析定性定量变量描述统计分析是指分组变量为定性变量、要描述的变量为定量变量,如不同性别的平均工资、不同教育程度的平均工资等等。可以使用tabstat命令,其基本命令项是:tabstat varlist if

20、in weight , optionsvarlist为要描述的定量变量,options有两个常用选项,一个是by()选项,界定分组变量;另一个是statistics(),可以加上想要报告的统计量,如在括号内加上mean,表示报告的结果是平均值,其他的如max为最大值,sd为标准差,p50为中位数,等等,可参见help文件。任务1 考察不同性别的工资tabstat wage,by(gender) statistics(mean sd p50 max min)上述结果列出了男性和女性的平均工资、标准差、中位数、最大值、最小值。可以看出男性的平均工资要高于比女性,以标准差衡量的男性内部的工资差异要大

21、于女性。任务2 不同教育程度的平均工资差异tabstat wage,by( schlevel) statistics(mean sd)结果显示,随着受教育程度的提高,平均工资也提高,而且工资差异(标准差)也越来越大。1.2 不平等的度量Stata命令为inequal7表1.4 不平等的测量方法指标计算方法与特征极差率最大值与最小值之比,无法衡量两者之间的观测单位的差异分位数差异考察不同分布点上的差异相对平均离差对于位于平均水平同侧的较低水平的到较高水平的转移没有敏感性Mcloone指数主要分析中位数以下的差异状况,是中位数以下样本均值与样本中位数的比值。Verstegen指数主要考察中位数以上

22、的差异状况,是中位数以上样本均值与样本中位数的比值。变异系数标准差除以均值;对任意x水平发生的x转移都有很强的敏感性;不受通货膨胀因素的影响。对数标准差对较低水平的x的发生的转移赋予更大的重要性,突出了x较低水平上的差异。Gini系数对x差距的最直接衡量,考虑到了每两个i在x之间的差距;不受通货膨胀因素的影响。GE指数与Theil系数GE指数中根据参数的取值从小到大,从对低水平差异较敏感变化为对高水平差异较敏感;GE(a=0)和Theil系数(a=1)可以将差异分解为组内与组间Atkinson指数与GE指数存在一一对应的单调转换关系。以上这些方法对理解不平等程度有着不同的内在意义。在这些方法中

23、,Gini系数是一个常用的方法,它不仅可以衡量不平等的程度,而且还可以进行按收入来源的分解,以及随时间变化的分解,这样可以分析总Gini系数主要由哪部分构成,以及总Gini系数的变动影响因素是什么。当然,Gini系数的一个不足是它对特别富裕的阶层的观察值比较敏感,如果样本中生均教育支出最高的阶层数据误差较大,那么Gini的估计值就不是很可靠(万广华,2006)。再如Mcloone指数可以帮助我们分析低支出水平的群体与中等群体之间的差距的变化,如果Mcloone指数越小,意味着低水平组与中位数的差距越大,也就是说越不不平等。Verstegen指数则可以考察中位数以上水平与中位数水平之间的差距,如

24、果Verstegen指数越接近于1,则意味着高水平组与中位数的差距越小,也就是说越不平等。通过这两个指标,我们可以来考察政策对低支出组和高支出组的影响如何,不平等的变化主要是由哪两个组群的变化引起的,从而考察政策是否起到了相应的作用。例如,如果Mcloone指数越小,说明政策对低水平组并没有起到相应的作用,也就是“在最不需要补助的地方,却得到的补助最多”。在用STATA计算上述不平等指标时需注意的一个问题是需要用人口数进行加权(aw=)。以Gini系数为例,假设有两个县,县A人均收入为100元,人口数为100人;县B的为1000元,人口数为1000人。如果计算Gini系数时不加权,这时县作为一

25、个人来看待,计算出的Gini系数是0.409;如果以人口数加权,则是0.081。显然,这是两个差异较大的Gini系数。当然,进行加权主要是针对数据是分组数据,如果是个体的数据(此时每个人即为一组)。此外,加权和不加权都有其现实含义,还要根据研究问题来确定。评价一个不平等指标在刻画不平等时是否足够好(或者能否提供足够的信息)的一个一般方法是,不平等指标有四个准则:匿名准则、人口准则、相对收入准则、达尔顿准则。另外,不平等指标的一个基本的性质是,如果给所有人的收入都增加同样的数量,则不平等程度会降低,反之,则会提高。(?)1. Gini的计算在Gini系数的计算中,首先需要将个体(或人群组)按照收

26、入从低到高进行排序,比较原始的计算方法如下:该公式的实际运算较为繁琐,一般手工计算难以完成。许多人提出了计算公式的其他形式,一种形式参见本章1.3节1.3.4、1、(3)。这里介绍另外一种直观简便的计算基尼系数的方法。作为参考。假定样本人口可以分成组,、和分别代表第i ( i=1,2,n )组的人均收入份额、平均人均收入和人口频数。那么,对全部样本按人均收入()由小到大排序后,基尼系数()可以用下式计算: 其中,为从1到i的累计收入比重;为洛伦茨曲线右下方面积的近似值;,。2. GE指数的计算方法GE指数(Generalized Entropy family of indices)的计算公式是

27、: 其中,n为样本数,ni为当样本分为i组时,该组人口数占总人口数的比重,如果每个个体即为一组,则ni1;a为常数,代表厌恶不平等的程度,a值越小,它所代表的厌恶程度越高。GE(1)又称为泰尔指数(Theil index);GE(0)又可称为平均对数离差。当a2时,GE指数就等价于变异系数的平方的二分之一。显然,选择用变异系数来度量不平等,意味着对收入不平等持更加接纳的态度。1.3 不平等的分解1.3.1不均等(Gini系数)的要素分解总收入由各分项收入构成,将总收入的Gini系数分解到各分项收入,得到各分项收入对总不平等的贡献。1. Gini系数要素分解方法的原理可参见1.3.4部分。提出者

28、为Fei, Ranis and Kuo(1978)、Pyatt, Chen and Fei(1980)。Stata命令为descogini,注意:该命令无法进行加权。分解公式为:根据yi从低到高进行排序,称为拟基尼系数(Pseudo-Gini),或者称为分项收入k的集中率指数(concentration ratio),是按照总收入yi对个体进行排序,计算出的k项收入的Gini系数。即:的一个用处是,当G(y),且样本人均收入不变,k项收入来源在总收入中的比重的增加将导致基尼系数的扩大,即导致更大的收入不均等,反之亦然。所以通过计算和比较G(y),可以判断收入来源对基尼系数的贡献趋势。根据上述公

29、式,分项收入对总不平等的贡献率就是:,或者上述公式等价于Fei(1978)的公式,即:corr()表示相关系数,i为按照总收入y对个体从低到高进行排序所对应的顺序,ik为按照第k项收入yk对个体从低到高进行的排序。特别注意的是,这里G(yk)为第k项收入的Gini系数(而不再是拟Gini系数)!由上也可以看出,拟Gini系数或k项收入的集中率等价于。在STATA的用于Gini系数要素来源分解的命令descogini的结果中,给出的即是Fei(1978)公式的结果。下面给出一个实例。应用“农村家庭收入数据(甘肃2004).dta”数据文件。总收入由农业生产收入、非农生产收入、工资性收入、财产性收

30、入和转移性收入构成,对总收入不平等进行Gini系数分解,过程如下:*use :农村家庭收入数据(甘肃2004).dta*对总收入Gini系数按收入来源进行分解descogini pinc pagrinc pprinc pwage ptset ptraninc*得到结果:-Source Sk Gk Rk Share % Change-pagrinc 0.4791 0.4897 0.6727 0.3527 -0.1264pprinc 0.2165 0.9398 0.8469 0.3851 0.1686pwage 0.2296 0.6657 0.5547 0.1894 -0.0402ptset 0.

31、0005 0.9910 0.5209 0.0006 0.0001ptraninc 0.0742 0.8321 0.5228 0.0722 -0.0021Total income 0.4475-总收入(Total income)Gini系数为0.4475。Sk为分项收入占总收入的比例,Gk为分项收入的Gini系数,Rk为公式中相关系数的比值部分,Share为分项收入对总Gini系数的贡献率(即sk),% Change指各分项收入1的变化对不平等的影响。如农业生产收入(pagrinc)均值(?)每提高1,总Gini系数就会降低0.1264。由上结果可以计算出分析收入的拟Gini系数或集中率,即用R

32、k*Gk。计算结果如下:表各分项收入集中率指数pagrinc0.3294pprinc0.7959pwage0.3693ptset0.5162ptraninc0.4350比较各分项收入集中率指数与总Gini系数,可以看出农业收入(pagrinc)、工资性收入(pwage)、转移性收入(ptraninc)的集中率均小于总Gini系数,而其他两项则大于,正好对应于%Change中给出的正负号的结果。即前三者的收入的增加会降低总不平等程度,而后二者会提高不平等程度。2. 随时间变化对基尼系数进行分解的方法。以上介绍的基尼系数的分解固然有用,但某项收入对基尼系数的百分比贡献也许不大,但有可能是导致居民收

33、入差异或基尼系数变化的重要因素。因此,我们对于基尼系数进行随时间变化的分解,可帮助我们找出其变化的原因。因为集中指数的变化可以独立于收入比重的变化,所以由基尼指数表示的收入差异的扩大或缩小可以纯粹来源于单项收入在总收入中的比重的变动,而非单项收入集中程度的变动。 以和+下标代表时间,基尼系数的变化为 上式表明,差异的变化可以分解为三大部分第一部分代表由比重变化引起的基尼系数的上升或下降;第二部分代表由集中程度的变化引起的基尼系数的上升或下降。第三部分代表由比重与集中程度变化共同引起的基尼系数的上升或下降。因为比重的变化与经济结构的调整密切相关,我们可以将称为结构性效应,而称为集中效应,综合效应

34、。1.3.2 不平等的子样本组群分解这里主要介绍Theil指数(a=1)的分解以及Gini系数的分解,其他不平等指标的分解原理同Theil指数,如GE(-1)、GE(0)、 GE(2))、Atkinson指数等。1. Theil指数分解方法Stata命令为ineqdeco,该命令的结果同时提供了其他几种GE指数与Atkinson指数的分解结果。将总不平等分解为不同子群体之间的不平等,如城市和农村的差异、县内和县之间的差异。从而得到各子群内部不平等(within)和子群体之间(between)的不平等分别对总不平等的贡献。根据Theil指数的基本计算公式:总体Theil系数可分解为组内差异和组间

35、差异。假定样本中的最小观测单位可分为多个组,则组内差异系数(Tw)为:这里nk是第k组的人数,为第k组的平均收入,Tk为第k组的Theil指数,即将k组单独计算的Theil指数。组间不平等系数(Tb)即使总体不平等系数与组间不平等系数之差:Tb=TTw。用组内差异和组间差异分别除以总差异,即得到各自对总差异的贡献。这里同时给出其他几个GE指数的分解公式,当,组内差异为: GEk(a)为k组的Theil指数。 STATA的ineqdeco命令只提供了组内差异的贡献的和,如果要进一步分析每一组内差异的贡献,可以根据该命令执行后提供的结果,运用上述公式进行计算。下面同样利用“农村家庭收入数据(甘肃2

36、004).dta”的数据给出一个实例。* use :农村家庭收入数据(甘肃2004).dta*用Theil指数分解方法将总收入分解为村内和村之间的不平等。Ineqdeco pinc, by(vcode) s*s选项指列出变量的描述性统计量。下面摘出部分结果。描述性统计量的结果为:家庭人均总收入- Percentiles Smallest 1% 280 127 5% 534 128.571410% 742 152.6667 Obs 191325% 1299 166.6667 Sum of Wgt. 191350% 2289.2 Mean 3080.41 Largest Std. Dev. 427

37、9.49175% 3544 53006.6790% 5375 58100 Variance 1.83e+0795% 7037.5 60216 Skewness 7.99% 17665 60450 Kurtosis 86.86039结果列出了GE指数(Theil指数为GE(1)和Gini系数:- All obs | GE(-1) GE(0) GE(1) GE(2) Gini-+- | 0.51970 0.36378 0.42792 0.96452 0.44752结果同时给出了各村的收入的描述性统计量,由于结果较多,这里略。村内差异的贡献为:within-group inequality, GE_

38、W(a)- All obs | GE(-1) GE(0) GE(1) GE(2)-+- | 0.39863 0.25353 0.31683 0.84210-如果要计算每个村内的贡献,可根据Theil指数分解公式计算出,你可以自己试着计算一下。 村之间差异的贡献为:Between-group inequality, GE_B(a):- All obs | GE(-1) GE(0) GE(1) GE(2)-+- | 0.12108 0.11025 0.11109 0.12242-上述结果的一个经济含义是,影响农村家庭收入不平等的因素中,村内不平等起到了主要的作用(占到74)。2. Gini系数按照

39、子样本组群的分解STATA命令为ginidecoGini子样本的分解与Theil系数分解有所不同,在于除去有组内不平等、组间不平等的贡献之外,还包括组内组间交叉(overlap)影响。交叉影响的含义是,某组中高收入的与另一组低收入的比较后,对总体不平等影响。例如,如果要将我国人均收入不平等用Gini系数分解为城镇和农村内部、城镇与农村之间以及两者交叉影响,交叉影响的含义是农村中高收入的那些个体与城镇中低收入个体相比较后的影响。这种方法的经济含义或现实含义还有待挖掘,文献中用的也较少。1.3.3基于回归分解收入均值的组间差异:Oaxaca-Blinder方法上述两种方法只能将不平等分解为子要素或

40、不同组群总不平等的贡献,但无法考察决定目标变量(如收入)的因素对收入不平等的贡献。基于回归的不平等分解则能解决这一问题。较早基于回归分解收入不平等的方法源自对组间收入均值差异的分解。以性别收入差异为例,通过建立收入决定函数,可以将性别收入差异分解到各决定收入的因素对性别收入差异的贡献以及不可解释部分的贡献,其中,不可解释部分的贡献常被看作是“市场歧视”(通常是对女性的歧视)。这里介绍以Oacaca-Blinder的分解方法发展起来的几种方法。1.Oacaca-Blinder基本分解公式STATA命令为oaxaca或oaxaca9。通过ssc install oaxaca安装。在oaxaca9中

41、,同时给出了估计的统计检验的结果。在性别工资差异的分解中,广泛采用的基本方法是Oaxaca(1973)与Blinder(1973)提出的分解方法,被称为Oaxaca-Blinder基本分解公式。这一分解公式基于Becker雇主歧视模型推导出来的。后来,许多学者对这一公式进行的修正。如Neumark(1988)、Cotton(1988)、Neuman & Oaxaca(2004)等人。根据Oaxaca(1973)、Oaxaca & Ransom(1994),总性别工资差异由下面公式定义: (1)这里和分别表示男性和女性的工资。在没有劳动力市场歧视的条件下,男性与女性工资之比反映的是纯粹的生产率差

42、异,以表示: (2)这里0表示劳动力市场上不存在歧视。市场歧视系数,定义为 ()与()之间的差异的比例,即: (3)公式(1)-(3)意味着总工资差异可以以对数的形式表示如下: (4)由歧视部分造成的工资差异又进一步可以分解为给男性过高工资(或市场优惠男性的部分)和给女性过低工资(或市场歧视女性部分)两部分,如下: (5)这里, 为男性当前工资与没有歧视情况下的工资差异, 为女性在没有歧视情况下的工资与当前工资的差异。将式(5)代入(4),就会得到以对数形式表示的总工资差异的分解公式: (6)分别估计男性和女性的工资函数(OLS),得到工资的对数: 这里,ln表示工资对数的均值,为以向量形式表示的解释变量的均值,为估计系数向量。由此得到对数形式表示的总工资差异就是:根据上式,公式(6)可进一步分解为: (7)公式中右边部分的第一项即为

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁