《《统计学复习》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《统计学复习》PPT课件.ppt(85页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学统计学 Statistics for Business and Economics 什么是统计学?什么是统计学?不列颠百科全书不列颠百科全书 统计学是一门收集、分析、表述和解统计学是一门收集、分析、表述和解释数据的科学。释数据的科学。统计学的特点统计学的特点以归纳为主要思维方式的以归纳为主要思维方式的统计不是统计不是以演绎以演绎为主的为主的数学。数学。从从整体整体观念出发,研究大量普遍存在的整观念出发,研究大量普遍存在的整体特征,说明事物的体特征,说明事物的规律性规律性。研究客观事物研究客观事物数量数量方面的方法论科学。方面的方法论科学。统计学的分科统计学的分科总体、个体和样本总体(总体
2、(population),所研究对象的全体。),所研究对象的全体。分为有限总体和无限总体分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数有限总体的范围能够明确确定,且元素的数目是有限的目是有限的无限总体所包括的元素是无限的,不可数的无限总体所包括的元素是无限的,不可数的个体(个体(individual),或总体单位,组成总体的元),或总体单位,组成总体的元素。素。样本(样本(sample)从总体中抽取的一部分元素的集合从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量构成样本的元素的数目称为样本容量1.参数参数(parameter)描述总体特征的概括性数字度量,是研究者
3、想要了解的总体的某种特征值只要总体不发生改变,总体参数不会改变总体参数通常用希腊字母表示 2.统计量统计量(statistic)用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数大小取决于所抽取的样本样本统计量通常用小写英文字母表示 参数和统计量平均数平均数平均数平均数标准差标准差标准差标准差比例比例比例比例统计量统计量 x xs sp p参数参数 总体总体总体总体 样本样本样本样本 统计数据统计数据是对客观现象计量计量的结果。一、数据的计量尺度由低级到高级分为四个层次二、抽样调查 从调查对象的总体中随机抽取一部分从调查对象的总体中随机抽取一部分单位作为样本进行调
4、查,并根据样本调查单位作为样本进行调查,并根据样本调查结果推断总体数量特征。结果推断总体数量特征。抽样方法简单随机抽样简单随机抽样分层抽样分层抽样整群抽样整群抽样系统抽样系统抽样多阶段抽样多阶段抽样概率抽样概率抽样非概率抽样非概率抽样抽样方式抽样方式误差 抽样误差由抽样随机性造成,只存在于概率抽样中。(样本的特征不一定和总体完全一样,这种差异不是错误而是必然会出现)非抽样误差覆盖误差被调查总体范围被人为减小无响应误差调查回收率太低响应误差没有反映真实观点(理解有误,有意欺瞒)道德误差调查人员缺乏业务培训或职业道德测量误差测量工具不准确 一个样本可以得到总体参数的一个点估计,该点估计值与总体参数
5、真值之间的差异,即为抽样误差抽样误差。(一)实际抽样误差:(一)实际抽样误差:抽样误差(Sampling Error)(二(二)抽样极限误差抽样极限误差 一定概率下抽样误差的可能范围(也称允许误差,误差幅度):统计数据的收集方法 1、访问调查(派员调查):、访问调查(派员调查):调查者与被调查者通过面对面的交谈获取调查资料;2、邮寄调查:、邮寄调查:通过邮寄或其他方式将问卷送至被调查者,由被调查者填写问卷并寄回或投放到指定收集点;3、电话调查:、电话调查:调查者利用电话同受访者进行语言交流以获取信息;4、座谈会(集体访谈):、座谈会(集体访谈):将受访者集中在调查现场,使其对调查主题发表意见以
6、获取调查资料;5、个别深度访问:、个别深度访问:一次只有一名受访者参加的特殊的定性研究。调查方案设计1、确定调查、确定调查目的目的Why?2、确定、确定调查对象调查对象和和调查单位调查单位 Who?3、拟订、拟订调查调查项目和调查表What?-调查项目要少而精;调查项目要少而精;-调查项目含义要明确;调查项目含义要明确;-尽可能做到各个调查项目之间有一定的联系。尽可能做到各个调查项目之间有一定的联系。4、确定调查、确定调查时间时间和和期限期限 When?-调查时间是指调查资料所属的时间(时点或时期);调查时间是指调查资料所属的时间(时点或时期);-调查期限是指调查工作的起讫时间。调查期限是指调
7、查工作的起讫时间。5、编制调查的、编制调查的组织组织计划计划How?第三章第三章 描述性统计描述性统计:数据的图表展示数据的图表展示第四章 描述性统计IIII:数值描述数值描述集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)偏态和峰态偏态和峰态偏态和峰态偏态和峰态(形状)(形状)(形状)(形状)离散趋势离散趋势离散趋势离散趋势 (分散程度分散程度分散程度分散程度)数据分布的特征集中趋势的度量集中趋势的度量位置平均数位置平均数众数众数中位数中位数分位数分位数集中趋势的度量数值平均数数值平均数简单算术平均数简单算术平均数加权算术平均数加权算术平均数几何平均数几何平均数调和平均数调和平均数离散
8、程度的度量(变异度)异众比率极差四分位差方差和标准差离散系数扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布偏态偏态偏态偏态峰态峰态峰态峰态左偏分布左偏分布左偏分布左偏分布右偏分布右偏分布右偏分布右偏分布与标准正态与标准正态与标准正态与标准正态分布比较!分布比较!分布比较!分布比较!偏态与峰态分布的形状推断统计统计量和估计值统计量和估计值样本的(不包含未知总体参数的)函数称为统计量统计量;统计量是随机变量,并有其分布随机变量,并有其分布。如果样本已经得到,把数据带入之后,统计量就有了一个数值,称为该统计量的一个实实现现(realization)或取值,也称为一个估计值估计值(e
9、stimate)。三种不同性质的分布 总体分布总体分布 样本分布样本分布 抽样分布抽样分布1.一个样本中各观察值的分布 2.也称经验分布 3.当样本容量n逐渐增大时,样本分布逐渐接近总体的分布 样本分布(sample distribution)样样本本1.样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 2.样本统计量是随机变量样本均值,样本比例,样本方差等3.结果来自容量相同容量相同的所有所有可能样本4.抽样分布(sampling distribution)考察样本均值的概率分布形式样本均值的概率分布形式。分两种况:1)总体分布已知且
10、为正态分布总体分布已知且为正态分布;2)总体分布未知;总体分布未知;(1)当总体分布已知且为正态分布或接近正态分布时,则无论样本容量大小如何,样本均值则无论样本容量大小如何,样本均值都为正态分布都为正态分布。样本均值的抽样分布 =50=50=50 =10=10=10X X X总体分布总体分布总体分布总体分布总体分布总体分布n n=4=4抽样分布抽样分布抽样分布抽样分布抽样分布抽样分布xn n=16=16当当总总体体服服从从正正态态分分布布N N(,2 2)时时,来来自自该该总总体体的的所所有有容容量量为为n n的的样样本本的的均均值值 x x也也服服从从正正态态分分布布,x x 的的数数学学期
11、望为期望为,方差为,方差为 2 2/n n。即。即 x xN N(,2 2/n n)(2)当总体分布未知时,需要用到中心极限定理中心极限定理中心极限定理中心极限定理(Central limit Theorem)经验上验证经验上验证,当样本容量等于或大于30时,无论总体的分布如何,样本均值的分布则非常接近正态分布。因此统计上常称容量在30(含30)以上的样本为大样本大样本(large-sample-size)。抽样分布与总体分布的关系总体分布总体分布总体分布总体分布正态分布正态分布非正态分布非正态分布大样本大样本小样本小样本样本均值样本均值正态分布正态分布样本均值样本均值正态分布正态分布样本均值
12、样本均值非正态分布非正态分布样本方差的分布1.在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布2.对于来自正态总体的简单随机样本,则比值 的抽样分布服从自由度为(n-1)的 2分布,即3、比例的抽样分布 1、期望值、期望值:有限总体:有限总体:无限总体无限总体 2、标准差、标准差:3、样本比例抽样分布的形状、样本比例抽样分布的形状(Form of the sampling distribution of p)根据中心极限定理中心极限定理有:当样本容量增大时当样本容量增大时(大样本),样本比例抽样分布趋向于以样本(大样本),样本比例抽样分布趋向于以样本期望值为中心、以样本方
13、差为方差的正态分布期望值为中心、以样本方差为方差的正态分布。区间估计区间估计则是根据样本估计量以一定的可靠程度一定的可靠程度推断总体参数所在的区间范围区间范围。区间估计(Interval Estimation)样本统计量样本统计量样本统计量样本统计量 (点估计点估计点估计点估计)置信区间置信区间置信区间置信区间置信下限置信下限置信下限置信下限置信上限置信上限置信上限置信上限抽样极限误差抽样极限误差 一定概率下抽样误差的可能范围(也称允许误差,误差幅度):置信区间的一般形式点估计(临界值)(标准误差)临界值:根据置信水平和抽样分布确定标准误差:根据抽样分布确定1.将构造置信区间的步骤重复很多次,
14、置信区间包含总体参数真值的次数所占的比例称为置信水平 2.表示为(1-为是总体参数未在区间内的比例3.常用的置信水平值有 99%,95%,90%相应的相应的 为0.01,0.05,0.10置信水平(置信度)(confidence level)置信区间(95%的置信区间)重复构造出重复构造出重复构造出重复构造出 的的的的2020个个个个置信区间置信区间置信区间置信区间 点估计值点估计值点估计值点估计值样本容量的确定估计总体均值时样本容量的确定 估计总体均值时样本容量n为2.样本容量n与总体方差 2、边际误差E、可靠性系数Z或t之间的关系为与总体方差成正比与误差幅度的平方成反比与置信水平成正比 样
15、本容量的圆整法则:当计算出的样本容量不是整数时,将小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等等定义:误差幅度(边际误差)定义:误差幅度(边际误差)E=1.根据比例区间估计公式可得样本容量n为估计总体比例时样本容量的确定 2.未知时,可以选取试验样本估计总体比例;也可取使方差最大值p=0.5(此时波动性(此时波动性p(1-p)p(1-p)达到最大,可确保样本量满足要求。如果抽样达到最大,可确保样本量满足要求。如果抽样水平超过了承受能力,只能牺牲置信水平或增加误差水平超过了承受能力,只能牺牲置信水平或增加误差幅度幅度E E。)。)其中:其中:其中:假设检验假设检验什么
16、是假设检验?(hypothesis test)1.先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程2.有参数检验参数检验和非非参数检验参数检验3.逻辑上运用反反证证法法,统计上依据小概率原理假设检验的基本思想.因此我们拒因此我们拒因此我们拒因此我们拒因此我们拒因此我们拒绝假设绝假设绝假设绝假设绝假设绝假设 =50=50=50.如果这是如果这是如果这是如果这是如果这是如果这是总体的假设均总体的假设均总体的假设均总体的假设均总体的假设均总体的假设均值值值值值值样本均值样本均值 =50=50抽样分布抽样分布抽样分布抽样分布抽样分布抽样分布H H H0 00这个值不像我
17、这个值不像我这个值不像我这个值不像我这个值不像我这个值不像我们应该得到的们应该得到的们应该得到的们应该得到的们应该得到的们应该得到的样本均值样本均值样本均值样本均值样本均值样本均值.202020假设检验中的两类错误1.第第类错误类错误(弃真错误弃真错误)原假设为正确时拒绝原假设第类错误的概率记为被称为显著性水平2.第第类错误类错误(取伪错误取伪错误)原假设为错误时未拒绝原假设第类错误的概率记为(Beta)显著性水平(significant level)1.是一个概率值2.原假设为真时,拒绝原假设的概率抽样分布的拒绝域3.表示为(alpha)常用的 值有0.01,0.05,0.104.由研究者事
18、先确定1.假设检验需要借助样本统计量进行统计推断,称为检验统计量。2.标准化结果原假设H0为真点估计量的抽样分布 检验统计量检验统计量(test statistic)3.3.标准化的检验统计量标准化的检验统计量 决策规则1.给定显著性水平,查表得出相应的临界值z或z,t或t2.将检验统计量的值与 水平的临界值进行比较3.作出决策双侧检验:I统计量I 临界值,拒绝H0左侧检验:统计量 临界值,拒绝H0一个总体参数的检验z 检验检验(单尾和双尾单尾和双尾)t 检验检验(单尾和双尾单尾和双尾)z 检验检验(单尾和双尾单尾和双尾)2 2 检验检验(单尾和双尾单尾和双尾)均值均值总体参数总体参数比例比例
19、方差方差方差分析方差分析什么是方差分析(ANOVA)?(analysis of variance)1.检验多个总体均值是否相等通过分析数据的误差判断各总体均值是否相等2.研究分类型自变量对数值型因变量的影响 一个或多个分类型自变量一个数值型因变量3.有单因素方差分析和双因素方差分析单因素方差分析:涉及一个分类的自变量双因素方差分析:涉及两个分类的自变量方差分析的基本思想和原理(两类误差)1.组内误差(组内误差(within groups)因素的同一水平(总体)下,样本各观察值之间的差异比如,同一行业下不同企业被投诉次数之间的差异这种差异可以看成是随机因素的影响,称为随机误差随机误差 2.组间误
20、差(组间误差(between groups)因素的不同水平(不同总体)之间观察值的差异比如,不同行业之间的被投诉次数之间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差系统误差问题的一般提法1.设因素有k个水平,每个水平的均值分别用 1,2,k 表示2.要检验k个水平(总体)的均值是否相等,需要提出如下假设:H0:1 2 k H1:1,2,,k 不全相等不全相等3.设 1为零售业被投诉次数的均值,2为旅游业被投诉次数的均值,3为航空公司被投诉次数的均值,4为家电制造业被投诉次数的均值,提出的假设为H0:1 2 3 4
21、 H1:1,2,3,4 不全相等不全相等分析步骤分析步骤提出假设提出假设构造检验统计量构造检验统计量统计决策统计决策单因素方差分析表(基本结构)误差来源误差来源平方和平方和(SS)自由度自由度(df)均方均方(MS)F值值P值值F临界临界值值组间组间(因素影响因素影响)SSAk-1MSAMSAMSE组内组内(误差误差)SSEn-kMSE总和总和SSTn-1关系强度的测量 1.变量间关系的强度用自变量平方和(SSA)占总平方和(SST)的比例大小来反映2.自变量平方和占总平方和的比例记为R2,即3.其平方根R就可以用来测量两个变量之间的相关性方差分析中的多重比较(multiple compari
22、son procedures)多重比较的步骤1.提出假设H0:mi=mj(第i个总体的均值等于第j个总体的均值)H1:mimj(第i个总体的均值不等于第j个总体的均值)2.检验统计量:相关分析和回归分析相关分析和回归分析相关分析及其假定1.相关分析要解决的问题变量之间是否存在关系?(散点图)如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?(相关系数)样本所反映的变量之间的关系能否代表总体变量之间的关系?(显著性检验)2.为解决这些问题,在进行相关分析时,对总体有以下两个主要假定两个变量之间是线性关系两个变量都是随机变量相关系数(计算公式)样本相关系数的计算公式或化简为总体相关系数
23、的计算公式回归回归回归是计量经济学的主要工具回归是计量经济学的主要工具回归是回归是研究一个因变量对一个或多个自变量的研究一个因变量对一个或多个自变量的依赖关系的过程,其用意在于通过后者的设定依赖关系的过程,其用意在于通过后者的设定去估计或预测前者的去估计或预测前者的均值(总体均值)均值(总体均值)。模型假定的简化模型假定的简化1)E()=0;(E(yi)=xi)2)对于所有的 i,Var()=.3)是服从正态分布N(0,)的.4)、(ij)是相互独立的.术语:这些假定意味着来自n个相互独立相互独立的同方差同方差、但是期望不同的正态总体。最小二乘估计(method of least square
24、s)1.德国科学家Karl Gauss(17771855)提出用最小化图中垂直方向的误差平方和来估计参数 2.使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即3.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小 线性回归模型的检验检验分二大类分二大类:统计检验计量经济检验从统计学的角度检验所估计的样本回归函数的有效性拟合优度检验显著性检验一元线性回归模型的检验一元线性回归模型的检验判定系数判定系数(coefficient of determination)的取值范围:0,1,越接近1,说明实际观测点离样本线越近,拟合优度越高。样本拟合优度样本
25、拟合优度可用下面的判定系数判定系数测度:判定系数等于相关系数的平方,即判定系数等于相关系数的平方,即R R2 2r r2 2估计标准误差(standard error of estimate)对误差项的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量反映用估计的回归方程预测y时预测误差的大小 计算公式为注:注:k k为自变量的个数。为自变量的个数。方差方差的一个无偏估计。即的一个无偏估计。即E(s2)=显著性检验显著性检验显著性检验包括显著性检验包括对各回归系数的检验对整个回归方程的检验 整个回归方程的显著性检验整个回归方程的显著性检验主要是要考察所选择的变量是否从总体上
26、对被解释变量起线性作用,即各解释变量前的参数是否不全为零各解释变量前的参数是否不全为零。因此,整个线性关系的检验整个线性关系的检验是通过如下F检验进行的整个回归方程的显著性检验整个回归方程的显著性检验其中,k表示模型中自变量的个数表示模型中自变量的个数,n为样本容量为样本容量。回归系数的检验(检验步骤)1.提出假设H0:1=0H1:1 02.计算检验的统计量3.确定显著性水平确定显著性水平,并进行决策,并进行决策 t t t t,拒绝拒绝H H0 0;t t t t,不拒绝不拒绝H H0 0残差分析解决的问题是线性关系吗?对误差项作的假定适合吗?1)等方差;2)相互独立;3)正态分布;哪些数据
27、属于异常值?哪些观测属于对回归模型有很大影响的?异常值(outlier)1.如果某一个点与其他点所呈现的趋势不相吻合,这个点就有可能是异常点,或称为野点如果异常值是一个错误的数据,比如记录错误造成的,应该修正该数据,以便改善回归的效果如果是由于模型的假定不合理,使得标准化残差偏大,应该考虑采用其他形式的模型,比如非线性模型如果完全是由于随机因素而造成的异常值,则应该保留该数据2.在处理异常值时,若一个异常值是一个有效的观测值,不应轻易地将其从数据集中予以剔除 利用回归方程进行估计和预测利用回归方程进行估计和预测利用回归方程进行估计和预测1.根据自变量 x 的取值估计或预测因变量 y的取值2.估
28、计或预测的类型点估计y 的平均值的点估计y 的个别值的点估计区间估计y 的平均值的置信区间置信区间估计y 的个别值的预测区间预测区间估计估计多元线性回归多元线性回归1.回归模型、回归方程、估计的回归方程回归模型、回归方程、估计的回归方程2.回归方程的拟合优度回归方程的拟合优度3.回归方程的显著性检验回归方程的显著性检验4.多重共线性问题及其处理多重共线性问题及其处理5.利用回归方程进行估计和预测利用回归方程进行估计和预测6.虚拟自变量的回归问题虚拟自变量的回归问题7.非线性回归非线性回归8.用用 Excel 进行回归分析进行回归分析时间序列分析和预测时间序列分析和预测1、时间序列的概念和分解(
29、times series)1.同一现象在不同时间上的相继观察值排列而成的数列2.形式上由现象所属的时间和现象在不同时间上的观察值两部分组成3.排列的时间可以是年份、季度、月份或其他任何时间形式时间序列的分类1.平稳序列(stationary series)基本上不存在趋势的序列,各观察值基本上在某个固定的水平上波动或虽有波动,但并不存在某种规律,而其波动可以看成是随机的 2.非平稳序列(non-stationary series)有趋势的序列线性的,非线性的 有趋势、季节性和周期性的复合型序列 时间序列的成分时间序列时间序列的成分的成分趋势趋势T季节性季节性S周期性周期性C随机性随机性I线性线
30、性趋势趋势非线性非线性趋势趋势预测方法的选择是是是是否否否否时间序列数据时间序列数据时间序列数据时间序列数据是是否否存存在在趋趋势势否否否否是是是是是是否否存存在在季季节节是是否否存存在在季季节节否否否否平滑法预测平滑法预测简单平均法简单平均法移动平均法移动平均法指数平滑法指数平滑法季节性预测法季节性预测法季节多元回归模型季节多元回归模型时间序列分解时间序列分解是是是是趋势预测方法趋势预测方法线性趋势推测线性趋势推测非线性趋势推测非线性趋势推测统计指数统计指数统计指数的分类统计指数的分类 指数的分类指数的分类按对象范围按对象范围的不同的不同 按编制的按编制的方法不同方法不同 按反映内按反映内容的差异容的差异 个体指数个体指数 综合指数综合指数 不加权指数不加权指数 加权指数加权指数 拉氏指数拉氏指数 帕氏指数帕氏指数 按对比场按对比场合的差异合的差异 数量指数数量指数 质量指数质量指数 时间指数时间指数 区域指数区域指数