实证研究中的数据分析课件.ppt-淘文阁

资源描述

《实证研究中的数据分析课件.ppt》由会员分享，可在线阅读，更多相关《实证研究中的数据分析课件.ppt（145页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、2023/2/23陈小林发表经验论文（empirical paper）应做到三条o研究问题有趣，能引起共鸣o论文必须对文献做出贡献n其他研究者未曾考虑过此问题n其他研究者未能回答此问题n其他研究者提供的回答是错误的o对研究的经验分析必须非常可靠为什么需要计量分析2023/2/23陈小林在数学与头脑相遇的地方，你的脑筋可以豁然开朗，你可以轻而易举地化解掉数学现象中的匪夷所思。数学是最奇妙的，它不关心主题，知道2X+2X=4X就行，能把真理浓缩统计分析是正确理解数据的工具o首先：要避免犯统计错误o明确：统计没有错误，犯错的是人。n1.理论和方法的错误n2.理解和解释的错误2023/2/23陈小林

2、2023/2/23陈小林理念o统计模型的严格数学表达很复杂、繁琐，但是其背后的思想往往很简单o做为统计学的使用者，重要的是掌握统计学的思想、解决问题的步骤和结果的解读，至于那些研究方法本身的事情，交给统计学家去做吧o复杂的方法未必是可行的方法，越是简单的方法，越容易得到广泛采用，也往往给使用者带来更多的价值o 要注意统计学方法的适用条件，滥用统计学会造成“严重”的负效果2023/2/23陈小林2023/2/23陈小林2023/2/23陈小林2023/2/23陈小林经验数据分析三步骤o数据收集与整理o描述性统计o多元回归分析（与稳健性检验）注：一篇经验研究论文的数据 3-4描述性统计和单变量分析

3、表一些多元回归分析表2023/2/23陈小林一、数据的收集与整理（select data&manage data）o数据的收集n数据库：CSMAR;CCER;WINDn手工收集：年报；年鉴；网络资源o数据整理n数据结构变换n数据合并（sas/stata：merge；append）n计算新变量n2023/2/23陈小林数据结构变换2023/2/23陈小林合并o简单合并（simple merge）n一个文件记录100个公司资产、负债，另一个文件记录该100个公司利润，合并成一个文件o附加合并（append）n一个文件记录50个公司的资产、负债和利润，另一个文件记录另外50个公司的资产、负债和利润

4、，合并成一个文件o匹配合并（match merge）n一个文件记录100个公司资产、负债，另个文件记录100个公司利润，但两个文件的变量有缺失，合并成一个，需要按关键字合并(如股票代码等)研究中主要是此类合并比如：前一文件中第30个公司没有数据，后一文件中第75个公司没有数据2023/2/23陈小林匹配合并示例2023/2/23陈小林计算新变量o研究中的测试变量往往需要重新计算n独立董事比例n国有股比例n净资产收益率n 2023/2/23陈小林二、描述性统计分析（Descriptive Analysis）o什什么么是是描描述述性性统统计计（Descriptive Statisti

5、cs）n描述性统计就是组织、描述和总结所收集到的一组数据的特征。n需要注意的是，它所描述的是这组数据本身的分布特征。2023/2/23陈小林2023/2/23陈小林二、描述性统计分析（Descriptive Analysis）o什么是推论统计什么是推论统计（Inferential Statisticsn推论统计就是从一个较小的群体中了解的信息并得出相关结论，推广到更大的一个群体。我们把较小的这个群体，也就是我们收集了数据的群体称之为样本（sample），把更大的那个群体，也就是我们所感兴趣的、要研究的对象群体称之为总体（population）。2023/2/23陈小林描述统计与推断统计的关系

6、反映客观现反映客观现反映客观现反映客观现象的数据象的数据象的数据象的数据总体内在的总体内在的总体内在的总体内在的数量规律性数量规律性数量规律性数量规律性推断统计推断统计推断统计推断统计（利用样本信息和概率（利用样本信息和概率（利用样本信息和概率（利用样本信息和概率论对总体的数量特征进论对总体的数量特征进论对总体的数量特征进论对总体的数量特征进行估计和检验等）行估计和检验等）行估计和检验等）行估计和检验等）概率论概率论概率论概率论（包括分布理论、大数定律（包括分布理论、大数定律（包括分布理论、大数定律（包括分布理论、大数定律和中心极限定理等）和中心极限定理等）和中心极限定理等）和中心极限定理等）

7、描述统计描述统计描述统计描述统计（统计数据的搜集、整（统计数据的搜集、整（统计数据的搜集、整（统计数据的搜集、整理、显示和分析等）理、显示和分析等）理、显示和分析等）理、显示和分析等）总体数据总体数据总体数据总体数据样本数据样本数据样本数据样本数据统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程二、描述性统计分析（Descriptive Analysis）2023/2/23陈小林二、描述性统计分析（Descriptive Analysis）o描述统计的目的n检查数据（如：变量值要有意义）n对此变量的分布特征做初步判断n

8、依据此数据推论总体是否合适，要如何做调整n依据此变量分布特征，选择合适的统计模型进行回归分析之前，进行描述性统进行回归分析之前，进行描述性统计分析是非常重要的计分析是非常重要的2023/2/23陈小林二、描述性统计分析（Descriptive Analysis）o总体和样本n样本是总体的一部分，是对总体随机抽样后得到的集合。n对观察者而言，无法了解总体，只能了解样本的具体情况。通过对具体样本研究，来推断总体特征。o随机变量n连续型n离散型2023/2/23陈小林变量的测量尺度2023/2/23陈小林二、描述性统计分析（Descriptive Analysis）o名称级：用于测量“定类变量（no

9、minal scale）”的值，是最低级别的测量等级。大多数定性测量都使用定类变量。其严格区分又可分为标记和类别n标记：作为一个识别的记号，并不表示数量的多少，不能做数学运算，如运动员的号码n类别：可以作为对变量的不同状态的度量。如性别、宗教。类别能够识别出某些特征，但也不能运算o顺序级：用于测量“定序变量（ordinal scale）”的值，是可以按某种特性将观测对象排序的，如等级、高低，先后的次序等，人的经济地位、文化程度的测量n 2023/2/23陈小林二、描述性统计分析（Descriptive Analysis）o间隔级：用于测量“定距变量（interval scale）”的值，这种值

10、之间不但可以比较大小顺序，还可以说明相差多少，即两上个值之间是有实际意义的。n例如，摄氏温度这一定距变量说明，摄氏40度比30度高10度，摄氏30度比20度又高10度，它们之间高出的距离相等，而摄氏零度并不是没有温度。又比如调查数个地区的工人占全部劳动人口的比率时，发现甲、乙，丙、丁、戊五个地区的比率分别是2、10、35、20、10。甲区与丙区相差33，丙区与丁区相差15。这也是一个变距变量。定距变量各类别之间的距离，只能用加减而不能用乘除或倍数的形式来说明它们之间的关系。n定距变量的每一等级之间的间距是相等的，可以用来相加或相减，但不能相乘和相除2023/2/23陈小林二、描述性统计分析（D

11、escriptive Analysis）o比例级：用于测量“定比率变量（ratio scale）”，这是最高的测量级别。n数字具有实际意义，能够进行加减乘除运算，运算的结果也具有实际意义。o一般情况下，测量级别高的变量可以当作级别低的变量来分析，但反过来一般不可以 o定类变量是属于定性型的；定距和定比率变量属于定量型；而定序变量则根据具体情况而定。2023/2/23陈小林二、描述性统计分析（Descriptive Analysis）数据特征的描述数据特征的描述分布特征分布特征集中趋势集中趋势离散程度离散程度众众众众众众数数数数数数中位数中位数中位数中位数中位数中位数均均均均均均值值值值值值

12、全距、分全距、分全距、分全距、分全距、分全距、分位数位数位数位数位数位数方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰峰峰度度度度度度最小值最小值最小值最小值最小值最小值最大值最大值最大值最大值最大值最大值偏偏偏偏偏偏度度度度度度2023/2/23陈小林二、描述性统计分析（Descriptive Analysis）o（1）数据集中趋势描述统计量）数据集中趋势描述统计量n均值（mean）o衡量数据的中心位置的重要指标。包括算术平均值（常用，总和除以个数）、加权算术平均值、调和平均值和几何平均值 n中位数（median）o另外一种反映数据的中心位置的指标，其确

13、定方法是将所有数据以由小到大的顺序排列，位于中央的数据值就是中位数，当当n为奇数为奇数，按大小排列，按大小排列后后，第，第(n+1)/2个观察值个观察值，就是中位，就是中位数数。当当n为偶数与为偶数与，则则取第取第n/2与与(n+2)/2个观察个观察值值的平均数为中位数的平均数为中位数。n众数（mode）o是指在数据中发生频率最高的数据值。可能不止一个众数，也可能没有众数（即不重复出现）2023/2/23陈小林二、描述性统计分析（Descriptive Analysis）n如果X的分布是单峰的对称分布，这时众数、中位数和平均数是一致的 n对于一个偏斜的分布，相对于众数，中位数朝长尾巴方向偏离了

14、一些，而均值刚偏离的更远 n均值对异常值是较敏感的，而中位数不那么敏感 n如果各个数据之间的差异程度较小，用平均值就有较好的代表性；而如果数据之间的差异程度较大，特别是有个别的极端值的情况，用中位数有较好的代表性。众数虽然稳定性差，但有时会有用，比如评选最受欢迎的比如评选最受欢迎的XXX 2023/2/23陈小林二、描述性统计分析（Descriptive Analysis）o（2）数据的离散程度）数据的离散程度描述统计量描述统计量n离散程度分析主要是用离散程度分析主要是用来反映数据之间的差异来反映数据之间的差异程度程度 n标准差（std Deviation）o主要是用來衡量主要是用來衡量观察观

15、察值与平均值的离散程值与平均值的离散程度，其值越小，表示度，其值越小，表示总体的齐质总体的齐质性越高性越高总体标准差样本标准差2023/2/23陈小林二、描述性统计分析（Descriptive Analysis）n方差（Variance）n最大值（maximum）n最小值（minimum）n全距（range）（=max-min）n分位数(排序后处于25%和75%位置上的值)QQ1 1QQMMQQ3 325%25%25%25%2023/2/23陈小林二、描述性统计分析（Descriptive Analysis）o（3）数据的分布）数据的分布n偏度（skewness）o偏度衡量的是样本分布的偏斜方

16、向和程度，以平均值为中心的不对称程度o=0 分布为对称分布分布为对称分布o0 此此分分布布为为右右偏偏或或正正偏偏分分布布，分分配配集集中中在在低低数数值值方方面面，不不对对称称的的尾尾端端向向较较大大值值方方向向（右）延伸（右）延伸o3 此分此分布为高狭峰，布为高狭峰，分分布较为布较为尖峰集中尖峰集中o3 此分此分布为低阔布为低阔峰，分峰，分布较为布较为平坦平坦2023/2/23陈小林峰度分布的形状扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布峰度峰度峰度峰度2023/2/23陈小林二、描述性统计分析（Descriptive Analysis）n一般情况下，如果样本的偏度接

17、近于0，而峰度接近于3，就可以判断总体的分布接近于正态分布。2023/2/23陈小林二、描述性统计分析（Descriptive Analysis）o示例：auditfeesn 检查数据（inspect auditfees）n单个变量数据分布o连续变量o离散变量n两个变量数据联合分布（含单变量分析）o两个都是连续变量o两个都是离散变量o一个连续变量，一个离散变量n单变量分析o两个连续变量（相关系数t检验）o两个离散变量（卡方检验）o一个连续变量和一个离散变量（分组均值t、中位数检验wilxocon）2023/2/23陈小林三、多元分析：线性回归模型（OLS）o基本模型基本模型o系数解释系数解释o

18、模型和系数检验模型和系数检验o模型诊断模型诊断2023/2/23陈小林（一）基本模型o模型中的变量模型中的变量n因变量因变量（dependent variable)o待解释变量待解释变量n自变量自变量（independent variable）o解释变量（需要研究的变量）解释变量（需要研究的变量）o控制变量（根据现有文献需进行控制的变量）控制变量（根据现有文献需进行控制的变量）2023/2/23陈小林（一）基本模型o一元线性回归一元线性回归o直线回归方程的模型：直线回归方程的模型：yi=a+bxi+ein其中：其中：na是截距是截距nb是回归系数是回归系数(regression coeffic

19、ient)（回归直线的斜（回归直线的斜率）率）nei是残差是残差n回归系数的统计学意义是：自变量每变化一个单位，因回归系数的统计学意义是：自变量每变化一个单位，因变量变量平均平均变化的单位数变化的单位数n直线回归方程的一般形式是：直线回归方程的一般形式是：2023/2/23陈小林（一）基本模型o回归直线的性质回归直线的性质残差和=0平均数相等拟合值与残差不相关自变量与残差不相关注意：这里的残差与注意：这里的残差与随机扰动项不是一个随机扰动项不是一个概念。随机扰动项是概念。随机扰动项是总体的残差。总体的残差。2023/2/23陈小林（一）基本模型n残差要求：n（1）不相关n（2）同方差n（3）正

20、态性2023/2/23陈小林（一）基本模型o多元线性回归多元线性回归n多元线性回归方程模型为：多元线性回归方程模型为：n yi=b0+b1x1i+b2x2i+bnxni+einb0是常数项，是各自变量都等于是常数项，是各自变量都等于0时，因变量的时，因变量的估计值。估计值。nb1，b2，bn是偏回归系数是偏回归系数(pertial regression coefficient)，其统计学意义是在其它，其统计学意义是在其它所有自变量不变的情况下，某一自变量每变化所有自变量不变的情况下，某一自变量每变化一个单位，因变量平均变化的单位数一个单位，因变量平均变化的单位数nOLS目的是使残差最小目的是使

21、残差最小（一）基本模型n如果有遗漏变量，而且与解释变量相关，将导致系数估计有偏，有偏的程度，取决于遗漏变量与解释变量的相关程度。n如果遗漏变量或未控制变量与解释变量不相关，那么得当的估计系数就能是无偏的。n确定是否存在遗漏变量：o理论指导o以前的经验研究结果o样本数据的收集过程2023/2/23陈小林2023/2/23陈小林（一）基本模型n如果所有参加分析的变量都是标准化的变量，如果所有参加分析的变量都是标准化的变量，这时这时b0就等于就等于0，b1，b2，bn 就变成了标就变成了标准化偏回归系数，用符号准化偏回归系数，用符号b1，b2，bn表示表示nbi=bi*sxi/syn由于由于bi没有

22、量纲，因此可以相互比较大小，反没有量纲，因此可以相互比较大小，反映自变量的相对作用大小映自变量的相对作用大小nei是残差是残差2023/2/23陈小林（一）基本模型o举例：举例：y x2023/2/23陈小林（二）系数解释o研究变量为连续变量的解释研究变量为连续变量的解释n如果得到的回归模型为如果得到的回归模型为nSALARY=963+18.5ROEn请解释其含义？（请解释其含义？（salary为经理的报酬）为经理的报酬）2023/2/23陈小林（二）系数解释n（1）ROE为为0，则，则CEO的报酬为的报酬为963n（2）ROE增加增加1个百分点，即个百分点，即ROE=1，那，那么薪水的预期变

23、化是么薪水的预期变化是18.5n如果得到回归模型为：如果得到回归模型为：nWage=-0.90+0.54educnLog（wage）=0.584+0.083educnLog（salary）=4.822+0.257log（sales）n含义？含义？2023/2/23陈小林（二）系数解释n对于第一个：关键是注意截距为负，不是没有意义，而是数据中的educ不会为0。增加一年教育，工资增加0.54.n第二个，因变量取了自然对数，如果将educ的系数乘以100，就成为百分数的概念，也就是增加一年的教育回报是多少。模型说明，增加1年的教育，工资会有8.3%的增长。此时，截距没有很大意义。n第三个，因变量和

24、自变量都取了自然对数，表示薪水对销售额的弹性，公司销售额增加1%，CEO的薪水增加0.257%。2023/2/23陈小林2023/2/23陈小林（二）系数解释n假定通过对526个观测数据估计得到的方程为：nLog（wage）=0.284+0.092educ+0.0041exper+0.022tenurenexper工作经历；tenure现职务任期n如果一个人在一个企业多待1年，对工资的影响有多大？2023/2/23陈小林（二）系数解释n在同一企业多待1年，意味着工作经历和现任职务都增加1年，对工资的估计影响是：即工资增加即工资增加2.61%2023/2/23陈小林（二）系数解释o（2）研究变量

25、为虚拟变量的解释n模型：wage=7.1-2.51femalen其中 female是虚拟变量n模型中的系数含义？n模型：log(price)=5.56+0.168log(lotsize)+0.707log(sqrft)+0.027bdrms+0.054colonialn其中：colonial是虚拟变量，殖民地风格建筑物为1，其他为0.n如何解释colonial的系数？2023/2/23陈小林（二）系数解释o（3）交互项系数的解释n模型：nLog（wage）=0.321-0.110female+0.213married-0.301female*married+n如何理解交互项系数？2023/2/

26、23陈小林（二）系数解释n模型nBlack表示黑人运动员，hispan表示西班牙裔运动员nPercblck表示城市中黑人比例，perchisp表示城市中西班牙裔的比例n如何理解上述系数？2023/2/23陈小林（二）系数解释nBlack的系数-0.198意味着，如果一名黑人在一个没有黑人的城市里（percblck=0），那么这个黑人比一个条件相当的白人少挣约19.8%。随着percblck的增加，黑人的薪水相对白人的薪水逐渐增加。在一个拥有10%黑人的城市，黑人的log（wage）=-0.198+0.00125（10%）=-0.073，即少7.3%，如果在一个20%的黑人城市，黑人要多5.2%

27、。n类似地推断西班牙人的工资58注意交互系数的解释5960Class questions:Class questions:l lTheoretically,how should auditing affect the Theoretically,how should auditing affect the interest rate that the company has to pay?interest rate that the company has to pay?l lEmpirically,how do we measure the impact of Empirically,how

28、 do we measure the impact of auditing on the interest rate using eq.(1)?auditing on the interest rate using eq.(1)?6162Class question:At what values of total Class question:At what values of total assets($000)is the effect of the Audit assets($000)is the effect of the Audit Dummy on the interest rat

29、e:Dummy on the interest rate:l lnegative,zero,positive?negative,zero,positive?6364oClass questions:nWhat is the mean value of total assets within their sample?nHow does auditing affect the interest rate for the average company in their sample?6566oVerify that the above claim is“true”.oSuppose Blackw

30、ell et al.had reported the impact for a firm with$11m in assets and another firm with$15m in assets.nHow would this have changed the conclusions drawn?nDo you think the paper would have been published if the authors had made this comparison?672023/2/23陈小林（二）系数解释o（4）统计显著性与经济显著性的解释o除了注意统计显著性外，对系数还要观察其

31、经济显著性，即对实践的影响是否大n例如：nPrate=80.29+0.00013worker+n其中Prate为养老保险参与率，worker为工人数量n系数表明，尽管显著，但工人数量对养老保险的实际影响不大，即使增加10000个工人，参与率才提高1.3%2023/2/23陈小林（二）系数解释o通过原点的回归n有时候，经济理论或社会常识会告诉我们，截距应该为0，即回归直线是通过原点的。n通过原点的回归有一个重要缺陷，如果总体模型中的截距中的截距不为0，那么斜率参数的OLS估计将是有偏的。在某些情况下，这种偏误可能会很严重。当截距确实为0，而估计带截距项的方程造成的后果就是OLS斜率估计量的方差会

32、更大。2023/2/23陈小林（三）模型和系数检验o检验模型（拟合度）正交分正交分解解2023/2/23陈小林（三）模型和系数检验oR-sq是0-1，越大表明拟合度越好，模型解释力越强。o值得注意的是，回归中增加一个自变量后，R-sq不会减小，而且通常会增大，这样自变量越多，R-sq越大，导致R-sq越大的回归模型并不是最优模型2023/2/23陈小林（三）模型和系数检验R2K变量个数2023/2/23陈小林（三）模型和系数检验调整系数调整系数adj-R-sq2023/2/23陈小林（三）模型和系数检验o调整后的拟合度系数的图象2023/2/23陈小林（三）模型和系数检验n（2）检验假设（即系

33、数检验，采用t检验）2023/2/23陈小林（三）模型和系数检验采用采用t 检验检验2023/2/23陈小林（三）模型和系数检验2023/2/23陈小林（四）模型诊断o多重共线性n两个或多个变量之间高度相关称为多重共线性（multicollinearity）n多重共线性的原因o(1)经济变量间的内在关系。由于经济变量之间的内在相关性而导致，在这个意义上，它是一个不可避免的问题o(2)经济变量在时间上有同方向变动的趋势，受同一决定因素的影响。如经济增长时期，收入、消费、投资、价格、就业都上升2023/2/23陈小林（四）模型诊断n(3)分布滞后模型的广泛运用。一个经济变量前后期之值可能高度线性相

34、关 n(4)所使用的数据收集及计算方法n(5)模型设定偏误。如自变量的多项式易导致这一问题n(6)过分确定模型。如解释变量个数多于观测数2023/2/23陈小林（四）模型诊断n多重共线性的后果o(1)具有较大的方差与协方差，难以得到精确的估计o(2)参数估计不稳健，对异常值敏感o(3)参数估计值标准误增大，从而使t 检验得出误导性结果。t统计量可能变得很小，从而参数检验不显著o(4)产生有偏的预测置信区间n多重共线性的检验方法（有多种方法）n vif2023/2/23陈小林（四）模型诊断n多重共线性的克服o转换变量法，差分法，对数法，倒数、增长率等。o利用截面数据（时间序列容易产生多重共线性）

35、o删去共线变量n删去变量后的模型不能反映出被删除变量与因变量的关系n删除变量后的回归系数估计量不再是无偏的，而是有偏的，且决定系数和F统计量都可能降低n可能会删除错变量，引起模型选择的错误2023/2/23陈小林（四）模型诊断o异方差n样本方差不一致，于是就有所谓异方差(Heteroscedasticity)n如下图可以明显看出样本方差与点(Xi,Yi)有关，随着样本数值增大而增大。造成异方差往往造成异方差往往是因变量不对称是因变量不对称2023/2/23陈小林（四）模型诊断n异方差的后果o普通最小二乘法参数估计量不再有效；显著性检验失效；预测精度下降n异方差的检验o一般需要比较大的样本，一般

36、都是作所谓残差分析o最简单直观的方法是将残差平方和oo与画在一张图上，大致可以看出残差是否发生改变2023/2/23陈小林（四）模型诊断2023/2/23陈小林（四）模型诊断n异方差的解决o可以通过因变量的转换，如取对数变换、倒数变换、开方变换等o使用统计技术，如stata中的robustothe t-statistics on the independent variables are much smaller when the standard errors are adjusted for heteroscedasticity2023/2/23陈小林（四）模型诊断（四）模型诊断o引起内

37、生性的原因引起内生性的原因n（1）模型设定偏误（遗漏变量）n这主要是因为实际的问题中，一个变量往往受到许多变量的影响，在实际建模过程中无法将解释变量全部列出。在这样的情况下，遗漏的变量的影响就被纳入了误差项中，在该遗漏变量与其他解释变量相关的情况下，就引起了内生性问题。即。（四）模型诊断n（2）测量误差n关于测量误差引起内生性的问题要基于测量误差的假设。测量误差可能是对被解释变量的测量误差，也可能是由于对解释变量的测量误差。这两种情况引发的结果是不一样的。内生性来源于X的测量误差。n(3)双向交互影响（或者同时受其他变量的影响）n这种情况引起的内生性问题在现实中最为常见。其基本的原理可以阐述为

38、，被解释变量Y和解释变量X之间存在一个交互影响的过程。X的数值大小会引起y取值的变换，但同时Y的变换又会反过来对X构成影响。n例如：例1：金融发展与经济增长n 例2：外商直接投资FDI与经济增长n 例3：犯罪率与警备投入2023/2/23陈小林（四）模型诊断o内生性的检验nHausman(1978)首先提出关于变量内生性的检验用统计量。Davison&MacKinnon(1989;1993)又提出一种借助辅助回归进行Hausman 检验的方法n现假定做如下回归2023/2/23陈小林（四）模型诊断二次二次回归回归2023/2/23陈小林（四）模型诊断o异常值n 异常值可能对模型产生重大影响

39、2023/2/23陈小林（四）模型诊断n解决方法o删去异常值 cooks大于4/N 认为影响大，应该删去o把极端值定义为某一个数字，如百分之一分位数o中位数回归（分位数回归）owinsor lnaf,gen(wlnaf)p(0.01)owinsor lnta,gen(wlnta)p(0.01)osum lnaf wlnaf lnta wlnta,detailoreg wlnaf wlnta big62023/2/23陈小林（四）模型诊断o相关残差（Correlated errors）nThe residuals of a given firm are correlated across yea

40、rs(“time series dependence”)nThe residuals of a given year are correlated across firms(“cross-sectional dependence”)2023/2/23陈小林（四）模型诊断oTime-series dependencen使用面板数据时往往成为一个问题，在面板数据中，可能存在有未观察到公司具体特征变量不随时间的变化而变化n存在此问题时，重复的观察值不能提供附加信息，影响估计的标准差（实际标准差不变），估计标准差更小，而T更大n解决问题：ostata ：robust cluster（companyid

41、）o按公司进行clustero凡是使用planel data数据回归时，要习惯使用 robust cluster2023/2/23陈小林（四）模型诊断oCross-sectional dependencen残差截面相关性是指同一年份的不同公司的残差是相关的n可以采用Fama-MacBeth(1973)的方法纠正2023/2/23陈小林（四）模型诊断nFor example:oreg lnaf lnta if year=1998,robustogen lnta_coeff=_blnta in 1oreg lnaf lnta if year=1999,robustoreplace lnta_coe

42、ff=_blnta in 2oreg lnaf lnta if year=2000,robustoreplace lnta_coeff=_blnta in 3oreg lnaf lnta if year=2001,robustoreplace lnta_coeff=_blnta in 4oreg lnaf lnta if year=2002,robustoreplace lnta_coeff=_blnta in 5osum lnta_coeff2023/2/23陈小林（四）模型诊断o解决方案，可以通过clustering on time，o即robust cluster(year)oNote：

43、we cluster on time to control for cross-sectional dependence while we cluster on the company to control for time-series dependence 2023/2/23陈小林中位数回归（median regression）o中位数回归模型中，系数估计是最小化残差绝对值之和，因而受异常值（极端值）影响更小oSTATA 把中位数回归作为一种特殊的分量回归模型对待2023/2/23陈小林中位数回归（median regression）2023/2/23陈小林中位数回归（median reg

44、ression）o分位数回归中，系数估计是残差加权平均和最小o权数就是Wi2023/2/23陈小林中位数回归（median regression）o对符号为正的残差和符号为负的残差，可选择不同的加权数 o如果所有的残差的加权数相等，那么所进行的回归就是中位数回归 o如果正的残差的加权因子为1.5，负的残差的加权因子为0.5，所进行的回归就是第三分位数回归，依次类推2023/2/23陈小林中位数回归（median regression）o在STATA 中执行分位数回归，可用 qregn qreg lnaf lnta big6 nreg lnaf lnta big62023/2/23陈小林Tobi

45、t模型o当数据出现left-censored或right-censored是可以使用tobit模型oTobit 模型有点相似于nY*=a0+a1 X+enY=0 if -Y*0nY=Y*if 0 Y*5ngen lnnaf2=lnnafnreplace lnnaf2=.if lnnaf5&lnnaf!=.nintreg lnnaf1 lnnaf2 lnta if miss=02023/2/23陈小林Logistic回归模型o引入Logistic的原因n二值因变量的存在（虚拟变量）o采用OLS会产生预测值无法解释的现象和异方差等n审计学：审计意见、事务所规模、审计师更换n常用来研究o审计意见的影

46、响因素o审计意见的预测o事务所的选择o审计师为什么会更换o财务会计中也会用来预测企业破产的概率2023/2/23陈小林Logistic回归模型oLogitstic模型n logit变换变换对数发生比线性函数线性函数2023/2/23陈小林Logistic回归模型发生比发生比oddsodds2023/2/23陈小林Logistic回归模型2023/2/23陈小林Logistic回归模型oLogistics模型的检验n（1）模型拟合度的检验n拟表示成n卡方值 chi-square2023/2/23陈小林Logistic回归模型2023/2/23陈小林Logistic回归模型n（1）系数检验和解释

47、nWald检验n系数的解释：o系数显著为正，表示在其他变量不变的情况下，对数发生比随自变量值的增加而增加o系数显著为负，表示在其他变量不变的情况下，对数发生比随自变量的增加而减少o系数不显著，说明自变量对因变量的影响不显著2023/2/23陈小林Logistic回归模型n因logistic的因变量是logit，不是连续变量，直接解释系数时含义较为模糊，为了清晰地反映变量之间的关系，通常转换后再进行解释，如转换为发生比（P/(1-P)）。n发生比是日常大家能够轻易理解的概念，比如高考的升学率，发表非标准意见的比率，选择大所的可能性、企业发生破产的可能性等。n发生比 odds=发生的概率/不发生的

48、概率，如果odds大于1，表示事件发生的可能性更大，反之，则不发生的可能性更大。2023/2/23陈小林Logistic回归模型n比如，发表非标准意见的概率为0.6，那么发表标准意见的概率就是0.4。发生比就为1.5，表示发表非标的可能性是发表标准可能性的1.5倍。n发生比率o如果有10家民营企业和5家国有企业被出具了非标准意见，100家民营企业和200家国有企业被出具标准意见。那么：o民营企业：发生比=10/100=10%o国有企业：发生比=5/200=2.5%o民营和国有的发生比率（OR）=10%/2.5%=42023/2/23陈小林Logistic回归模型oLogistic模型转换202

49、3/2/23陈小林Logistic回归模型n连续自变量的解释n自变量每变化一个单位，发生比率的变化率就是2023/2/23陈小林n对于连续变量的分析，往往不会只比较相邻两个值之间的发生比率，而是比较某一个组距（b-a）的发生比，即从a变到b。此时调整发生比率为：2023/2/23陈小林Logistic回归模型n分类自变量（虚拟变量等）o与线性模型一样，代表的是该变量与参照变量对因变量影响的差异，即是该变量与参照变量的发生比率。o如果虚拟变量企业性质的指数为o则表示，民营企业被出具非标准意见的发生比是国有企业的2.5倍。o能否转换表述为民营企业被出具非标准意见的概率是国有企业的2.5倍？n分类自

50、变量多于两个分类时如何转化为虚拟变量？2023/2/23陈小林Logistic回归模型o 标准化回归系数n与OLS一样，也可以计算标准化回归系数，OLS计算标准化回归系数的方法：o（1）代入回归前先将变量标准化：标准化值=（变量-变量平均值）/变量的标准差o（2）按下述公式计算o但对于分类变量，标准化没有意义。2023/2/23陈小林Logistic回归模型nLogistic计算标准化回归系数要更为复杂，计算方法如下：2023/2/23陈小林Logistic回归模型o系数子集的检验n有时研究兴趣是检验一组自变量作为子集是否与因变量显著相关，即一组变量对因变量是否有显著影响。2023/2/23陈

展开阅读全文