《计量学-随机变量、统计推断和随机过程.pptx》由会员分享,可在线阅读,更多相关《计量学-随机变量、统计推断和随机过程.pptx(60页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、随机变量、统计推断和随机随机变量、统计推断和随机过程过程提要n介绍计量经济学的概率统计基础知识 n包括随机变量、统计推断和随机过程知识 n假设有基本的概率论知识 n本教材的计量经济模型和分析方法的需要n对于学习和理解计量经济分析方法有启发第一节 随机变量和概率分布一、随机变量及其概率分布一、随机变量及其概率分布二、多元分布和条件分布二、多元分布和条件分布三、概率分布的数字特征三、概率分布的数字特征四、常见分布四、常见分布五、随机变量的收敛性和极限理论五、随机变量的收敛性和极限理论一、随机变量及其概率分布一、随机变量及其概率分布(一)随机变量(一)随机变量 n随机变量就是数量化的随机事件。n按照
2、公理化定义,随机变量是从样本空间扩张而成的 -域到实数集的函数。n在经济问题中,随机变量就是有随机性的经济指标、水平。n随机变量也可以通过对定性事件的数量化转化得到。n“离散型随机变量”和“连续型随机变量”。(二)概率分布(二)概率分布n随机变量重要的是取特定值的可能性,称为随机变量的“概率分布”。n用 表示一个随机变量,那么概率分布就是设定 取特定值(一般用 表示)的概率,记为 。n对于离散型随机变量来说,由于它们只取有限或可数个数值,因此离散型随机变量的概率分布一般可以用罗列的方法表示,用表格表示,或者用图形表示等。x(三)分布函数(三)分布函数 n连续型随机变量的可能取值无穷多,而每个值
3、取到的概率都是无穷小,无法用直接罗列概率的方法表达和研究,只能用反映随机变量取特定范围值可能性大小的分布函数,也称“累积分布函数”(accumulated distribution function),进行描述和研究。n分布函数就是随机变量的取值不大于给定水平的概率构成的函数。n离散型随机变量的分布函数可以通过概率分布列的求和得到。n分布函数完整地描述了随机变量的情况,掌握分布函数等于掌握了随机变量的随机性规律。n 随机变量的分布函数有如下性质:(1),;(2)若 ,则 ;(3);(4);(5)。(四)密度函数(四)密度函数n连续型随机变量的概率分布还有另外一个有意义的概念,那就是密度函数(d
4、ensity function)或者称“概率密度函数”。n如果 是 的分布函数,是 的密度函数,那么两者有如下关系:n密度函数 满足:(1);(2);(3)若 是连续型随机变量 的分布密度,则对实数轴上的任一测度 ,有 (五)随机变量函数的概率分布(五)随机变量函数的概率分布n如果 是随机变量 的函数 ,设 的分布函数为 ,则 的分布函数为 含义是,自变量(随机)取特定值的概率,就是函数取相应函数值的概率。n当 是离散型随机变量时,其可能取值为 ,且 ,则n当 是连续型随机变量时,其分布密度函数为 ,则二、多元分布和条件分布二、多元分布和条件分布(一)随机向量和多元分布(一)随机向量和多元分布
5、n计量经济学中会遇到大量相互联系的两个或多个随机变量的情况。许多时候重要的不是每个随机变量单独的随机性,而是一组变量取特定水平的概率。n随机向量也有概率分布问题,称为“多元分布”。随机向量多元分布的含义是两个或多个随机变量取一组特定值的概率分布,一般用联合分布函数表示。n从随机向量的联合分布函数可以引出随机变量边际分布的概念。(二)条件分布和随机变量的独立性(二)条件分布和随机变量的独立性n条件分布:设 是一个随机变量,事件B 满足 ,则称 为在事件B发生的条件下 的“条件分布函数”,或简称“条件分布”。n随机变量的相互独立性:如果 的联合分布函数等于所有一维边缘分布函数的乘积,即 那么称 是
6、“相互独立”的。三、概率分布的数字特征三、概率分布的数字特征(一)期望(一)期望 也称“数学期望”。衡量随机变量取值的平均水平,定义为随机变量的可能取值,以相应概率为权重加权的概率均值。(二)方差(二)方差 衡量随机变量取值发散程度的指标,定义为随机变量与其数学期望偏差平方的概率加权和。(三)期望和方差的性质(三)期望和方差的性质 (四)(四)条件期望、全数学期望和条件方差条件期望、全数学期望和条件方差n条件期望即给定条件下所考察随机变量的概率均值。设 是随机变量 对事件B的条件分布函数,则当下列积分绝对收敛时,称 为 对事件B的“条件期望”。n全数学期望公式 若 是两两互斥的完备事件组,则有
7、全数学期望公式 其中 可以是一般的随机事件,也可以是随机变量。n条件方差 给定随机变量X 和Y,以X为条件的Y的条件方差为:(五)高阶矩(五)高阶矩n仿照数学期望和方差,还可以进一步考虑更高阶的数字特征,称为“高阶矩”。n当 ,随机变量 和 的数学期望 和 (假设存在),分别称 为 随机变量 的“r阶原点矩”和“r阶中心矩”。n可以用高阶矩构造一些有用的特定统计量:偏度、峰度。(六)协方差和相关系数(六)协方差和相关系数n协方差 设随机变量 和 的均值和方差都存在,则 称为 和 的“协方差”(Covariance)。n相关系数 设随机变量 和 的均值和方差都存在,则 称为 和 的“相关系数”(
8、Correlation coefficient)。n偏相关系数 计算偏相关系数要用到第二篇中的回归分析方法。四、四、常见分布常见分布(一)正态分布(一)正态分布(二)(二)分布分布(三)(三)t分布分布(四)(四)F分布分布(一)正态分布(一)正态分布n取值于()的连续分布n正态分布完全由期望和方差决定n分布密度函数 数学期望 方差 正态分布记为 n正态分布是以数学期望为中心的对称分布n正态分布密度函数具有“钟形”特征n95%左右集中分布在期望加减2倍标准差范围n99%以上集中在期望加减3倍标准差范围内n正态分布偏度为 =0n正态分布密度函数有常峰态,峰度 接近3n标准正态分布 一般正态分布随
9、机变量 变换成“标准正态分布”:密度函数:正态分布的检验正态分布的检验n根据密度函数的形态进行判断:用频数直方图的上方边缘作为密度函数的近似,判断随机变量是否服从正态分布。n根据偏度、峰度特征检验:利用观测样本计算三阶矩和四阶矩的近似值(与后面讲的抽样分布有关),偏度和峰度近似值,如果接近0和3,则认为随机变量服从正态分布,也称“通过了正态性检验”。(二)分布n标准正态分布随机变量的平方所服从的分布。n取值范围是(),显然是非对称分布。n数学期望等于自由度 ,方差为2 (三)三)t分布设 服从标准正态分布 服从自由度为 的 分布则随机变量服从自由度为 的t分布t分布概率密度函数形态类似标准正态
10、分布方差为 ,比标准正态分布平坦,尾部厚(四)四)F分布分布 服从自由度 的 分布,服从自由度 的 分布,相互独立,那么随机变量 服从的分布称为有两个自由度 和 的F分布记为 六、六、随机变量的收敛性和极限理论随机变量的收敛性和极限理论(一)随机变量的收敛性(一)随机变量的收敛性 n大量随机变量之和的概率分布是通过随机变量序列极限分布表现的,极限定理的基础是随机变量序列的收敛性。n随机变量序列的收敛性与一般变量不同,是概率、概率分布或者分布特征的收敛性,有依分布收敛和依概率收敛等。n不同的收敛性定义将导致不同的极限定理。n分布函数弱收敛分布函数弱收敛:对于分布函数序列 (为了简单起见,常常直接
11、写成 ,如果存在函数 使得 在 的每个连续点上都成立,则称“弱收敛于 ”。n 依分布收敛依分布收敛:设随机变量序列 的分布函数序列为 ,随机变量 的分布函数为 ,如果 弱收敛于 ,则称“依分布收敛于 ”。n依概率收敛依概率收敛:对于随机变量序列 和随机变量 ,如果 或 对任意的 成立,则称“依概率收敛于 ”。有时候也称 的“概率极限”是 ,并可记为(二)大数法则(二)大数法则 n伯奴利大数定理n独立同分布场合的大数定律(三)中心极限定理(三)中心极限定理 n独立同分布场合的中心极限定理n非独立同分布场合的中心极限定理第二节第二节 参数估计和假设检验参数估计和假设检验 n随机变量取值往往无穷多,
12、不可能通过全面调查了解总体分布,只能根据从总体抽取的部分样本推断总体情况。这称为“统计推断”,包括参数估计和假设检验等。n计量经济回归分析的观测数据相当于随机变量总体抽取的样本,回归分析就是根据样本推断总体情况,就是一种统计推断。n因为计量经济分析的样本不是标准抽样方法抽取,而是通过观测得到,因此计量经济分析的统计推断有一定特殊性。一、一、随机抽样和抽样分布随机抽样和抽样分布(一)随机抽样和样本统计量n样本即随机变量分布总体的部分样本点构成的子集。n样本是抽样得来的,抽样有不同的方法。计量经济分析的数据一般都是简单随机抽样的样本。n样本统计量:样本均值 样本方差(二)抽样分布n样本统计量的概率
13、分布称为“抽样分布”。n抽样分布可以考虑正态总体的小样本精确分布,对其他总体则主要考虑大样本极限分布。n正态总体小样本分布:样本均值、方差的分布,样本线性函数的分布n一般总体的大样本抽样分布:中心极限定理与渐近正态分布 二、二、参数估计参数估计(一)最大似然估计(二)矩估计(三)最小二乘估计(四)估计量的性质(五)参数估计方法的归纳和比较(一)最大似然估计(一)最大似然估计Maximum likelihood estimates,MLn基本原理:随机变量的分布参数水平在数据生成过程中起着作用,不同参数水平生成特定数据集的可能性不同,可以根据生成样本的可能性大小估计参数水平。根据事物出现的概率(
14、几率、可能性)的大小推断参数水平。n最大似然估计的核心是似然函数(Likelihood function),即样本同时出现的联合概率密度n令似然函数达到最大的参数估计值称为参数的“最大似然估计”n对数似然函数 例例2-11:正态分布参数的估计:正态分布参数的估计 已知一随机变量服从未知参数的正态分布 ,并且已经观测到一组样本 ,要求估计分布参数。例例2-12:泊松分布参数的估计:泊松分布参数的估计 观测到一个服从未知参数的泊松分布的随机变量的10个数据的样本,这些数据分别为5、0、1、2、3、2、3、4、1、1,要求估计出该泊松分布的未知分布参数 。根据泊松分布的概率公式,该随机变量的数值为
15、的概率为10个数据出现的联合分布概率为这个联合分布概率就是生成上述10个数据的似然函数,记作 ,即它的对数似然函数是(对数函数的单调性)求导可得 的最大似然估计 必须满足所以 。(二)矩估计 Method of moments,MMn矩估计,也称为“矩方法”。n基本原理:样本统计量依概率收敛于未知参数的一个函数,可利用样本矩作为总体矩的近似,获得未知参数的估计值。(三)最小二乘估计 Least Squaren最小二乘法是估计随机变量参数最基本的方法,也是计量经济分析中运用最广泛的参数估计方法。n基本原理:根据随机变量理论值与实际观测值的偏差平方和最小估计参数。n最小二乘估计不要求知道随机变量服
16、从的分布。(四)估计量的性质n线性性n无偏性(渐近无偏)n有效性(渐近有效)n一致性n最小方差线性无偏估计BLUEn均方误(Mean squared error,MSE)(五)参数估计方法的归纳和比较n最大似然估计:1、ML小样本不保证无偏和有效,但一般有一致估计、渐近正态分布和渐近有效的大样本性质。如果参数存在最小方差边界估计量,一定是最大似然估计量。2、最大似然估计在线性非线性回归、联立方程组模型、各种特殊变量和数据模型、时间序列分析的概率模型等中都有重要应用。3、最大似然估计需要知道随机变量的概率分布形式,这是构造似然函数的基础。n矩估计 1、矩估计小样本也不保证无偏和有效。但根据独立同
17、分布随机变量的极限定理,矩估计通常具有大样本一致估计的性质。2、矩估计主要适用要求一致估计,但对有效性相对不重视的参数估计问题。3、矩估计可以不需要知道随机变量服从的概率分布名称而直接进行估计。4、矩估计在计量经济分析中同样也有许多应用。n最小二乘估计:1、在满足假设的经典计量经济模型中,最小二乘估计满足线性性、无偏性、有效性和一致性等性质,而且方便应用。2、最小二乘估计还可以通过各种扩展以适应某些不符合经典假设的模型。3、最小二乘估计并不要求知道随机变量的概率分布形式。n参数估计方法有不同特点,但没有严格的优劣之分。各种参数估计方法既可能一致,也可能有差异,应结合具体情况选用。三、三、统计检
18、验统计检验(一)统计检验基本原理(二)参数的置信区间(三)假设检验 第三节第三节 随机过程及其平稳性随机过程及其平稳性 n时间序列数据是计量经济分析最普遍使用的数据类型。n时间序列数据可以看成是由随机过程生成的,是特定随机过程的“实现”n以时间序列数据为基础的计量经济分析随机过程理论有密切关系。n随机过程是概率统计理论的另一重要分支。一、一、随机过程及其概率分布随机过程及其概率分布(一)随机过程定义(一)随机过程定义(二)随机过程的分布特征(二)随机过程的分布特征 1、有限维分布函数族 2、均值和方差函数二、二、随机过程的平稳性随机过程的平稳性(一)随机过程平稳性的定义和意义(一)随机过程平稳性的定义和意义 1、严平稳 2、弱平稳 3、计量经济分析与时间序列平稳性(二)平稳和非平稳随机过程的例子(二)平稳和非平稳随机过程的例子 1、白噪声过程 2、独立同分布过程 3、随机游走和单位根过程(三)平稳性的检验(三)平稳性的检验 1、图形判断 2、自相关图检验 3、单位根检验平稳时间序列图形n非平稳时间序列图形趋势平稳时间序列图形