《统计学复习大纲本科生.ppt》由会员分享,可在线阅读,更多相关《统计学复习大纲本科生.ppt(48页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学复习2012.06第一章 统计及统计数据统计学:统计学:收集、处理、分析、解释数据并从数据收集、处理、分析、解释数据并从数据中得出结论的科学中得出结论的科学1.描述统计:研究数据收集、整理和描述的统计学描述统计:研究数据收集、整理和描述的统计学方法方法 2.推断统计:研究如何利用样本数据来推断总体特推断统计:研究如何利用样本数据来推断总体特征的统计学方法征的统计学方法变量、变量的分类:变量、变量的分类:数值变量、分类变量和顺序变量数值变量、分类变量和顺序变量抽样方法:抽样方法:简单随机抽样,分层抽样,系统抽样,整群简单随机抽样,分层抽样,系统抽样,整群抽样。抽样。第二章 数据的图表表示定
2、性数据的图表表示:定性数据的图表表示:频数分布表,条形图,帕累托图,饼图,环频数分布表,条形图,帕累托图,饼图,环形图。形图。定量数据的图表表示:定量数据的图表表示:频数分布表,直方图,茎叶图,箱线图,散频数分布表,直方图,茎叶图,箱线图,散点图,雷达图点图,雷达图第 三章 用统计量描述数据水平的度量:平均数、中位数、分位数、众数水平的度量:平均数、中位数、分位数、众数差异的度量:极差、四分位差、方差(样本方差,差异的度量:极差、四分位差、方差(样本方差,总体方差)、标准差、离散系数总体方差)、标准差、离散系数第四章 概率分布概率概率:对事件发生的可能性大小的度量对事件发生的可能性大小的度量离
3、散型概率分布:离散型概率分布:二项分布二项分布:一次试验只有两个可能结果,即一次试验只有两个可能结果,即“成功成功”和和“失失败败”一次试验一次试验“成功成功”的概率为的概率为p,失败的概率为,失败的概率为q=1-p,且概率且概率p对每次试验都是相同的对每次试验都是相同的,试验是相互独立的,并试验是相互独立的,并可可以重复进行以重复进行n次次。重重复复进行进行 n 次试验,出现次试验,出现“成功成功”的次数的次数的概率分布称为二项分布,记为的概率分布称为二项分布,记为XB(n,p)。泊松分布:泊松分布:连续型概率分布:正态分布连续型概率分布:正态分布第四章 概率分布c c2-分布:分布:对于n
4、个标准正态随机变量y1,y2,yn,则随机变量 称为具有n个自由度的2分布,记为 2 20 0 由正态分布导出的几个重要分布:由正态分布导出的几个重要分布:c c2-分布,分布,t-分分布,布,F-分布分布t-分布分布1.提出者是William Gosset,也被称为学生分布(students t)2.t 分布是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布 x xt 分布与标准正态分布的比较分布与标准正态分布的比较t 分布标准正态分布t t不同自由度的不同自由度的t分布分布标准正态分布t t(dfdf=
5、13)=13)t t(dfdf=5)=5)z z若随机变量若随机变量X N(0,1),Yc c2(n),则,则2008年8月F分布1.设若U为服从自由度为n1的2分布,即U2(n1),V为服从自由度为n2的2分布,即V2(n2),且U和V相互独立,则 称F为服从自由度n1和n2的F分布,记为F F第四章 概率分布参数、统计量的概念参数、统计量的概念第四章 概率分布统计量的分布:统计量的分布:样本均值的分布:样本均值的分布:样本比例的分布:样本比例的分布:样本方差的分布:样本方差的分布:中心极限定理中心极限定理(central limit theorem)从均值为,方差为 2的一个任意总体中抽取
6、容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布当样本容量足够大时(n 30),样本均值的抽样分布逐渐趋于正态分布一个任意分布的总体x x2008年8月大样本,不管总体分布是否正态,总体方差大样本,不管总体分布是否正态,总体方差 已知,已知,大样本,不管总体分布是否正态,总体方差大样本,不管总体分布是否正态,总体方差 未知,未知,样本均值的分布样本均值的分布小样本,总体分布正态,总体方差小样本,总体分布正态,总体方差 已知,已知,小样本,总体分布正态,总体方差小样本,总体分布正态,总体方差 未知,未知,样本比例的分布:样本比例的分布:当样本容量很大时(np
7、(成功次数)和n(1-p)(失败次数)均应该大于10),样本比例的抽样分布可用正态分布近似,即第四章 概率分布 样本方差的分布:样本方差的分布:对于来自正态总体的简单随机样本,则对于来自正态总体的简单随机样本,则第五章 参数估计参数估计:用样本统计量去估计总体的参数参数估计:用样本统计量去估计总体的参数点估计:用样本的估计量的某个取值直接作为总点估计:用样本的估计量的某个取值直接作为总体参数的估计值体参数的估计值区间估计:在点估计的基础上,给出总体参数估区间估计:在点估计的基础上,给出总体参数估计的一个估计区间,该区间由样本统计量加减估计的一个估计区间,该区间由样本统计量加减估计误差而得到计误
8、差而得到评价估计量的标准:无偏、有效、一致评价估计量的标准:无偏、有效、一致置信水平:将构造置信区间的步骤重复很多次,置信水平:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例,置信区间包含总体参数真值的次数所占的比例,也称置信度也称置信度 -1.96-1.96 x x95%95%构造构造m m区间估计的原理:区间估计的原理:+1.96+1.96 x x构造的构造的m m估计区间为:估计区间为:称为置信水平。称为称为95%置信水平下的置信区间置信水平下的置信区间Z Z Z Z/21 1-0 0 0 0区间估计的原理区间估计的原理-Z-Z-Z-Z/2/2/2Z=Z=构造的
9、构造的mm的的(1-置信水平下的置信置信水平下的置信区间为:区间为:由由第五章 参数估计一个总体参数的区间估计 总体均值的区间估计 总体比例的区间估计 总体方差的区间估计总体均值的区间估计1.总体均值在置信水平下的置信区间可一般性地表达为 注:具体分位数为多少,要看样本均值服从的分布。此时要考虑以下三个方面:大样本/小样本;总体是否正态;总体方差是否已知。样本均值样本均值分位数值分位数值样本均值的标准误差样本均值的标准误差总体比例的区间估计1.假定条件总体服从二项分布;np(成功次数)和n(1-p)(失败次数)均应该大于10(也有些书上说大于5)使用正态分布统计量 z总体比例总体比例总体比例
10、在在在1-1-1-置信水平下置信水平下置信水平下的置信区间为的置信区间为的置信区间为样本比例样本比例分位数值分位数值样本比例的标准误差样本比例的标准误差2.2.由由总体方差的区间估计(总体服从正态分布)1.估计一个总体的方差或标准差2.总体方差 2 的点估计量为s2,且 总体方差在总体方差在1-1-置信水平下的置信区间为置信水平下的置信区间为3.3.3.由由由 1-1-1-1-1-1-1-自由度为自由度为自由度为自由度为n n-1 1的的的的 第五章第五章 参数估计参数估计样本量的确定样本量的确定 估计总体均值时样本量的确定估计总体均值时样本量的确定 估计总体比例时样本量的确定估计总体比例时样
11、本量的确定其中:其中:其中:其中:其中:其中:其中:其中:第 六 章 假设检验1.1.假设检验:先对总体的参数假设检验:先对总体的参数(或分布形式或分布形式)提出提出某种假设,然后利用样本信息判断假设是否成某种假设,然后利用样本信息判断假设是否成立的统计方法立的统计方法2.2.原假设:又称原假设:又称“0 0假设假设”,研究者想收集证据予,研究者想收集证据予以反对的假设,用以反对的假设,用H H0 0表示。所表达的含义总是指表示。所表达的含义总是指参数没有变化或变量之间没有关系参数没有变化或变量之间没有关系 3.3.备备择择假假设设:也也称称“研研究究假假设设”,研研究究者者想想收收集集证证据
12、据予予以以支支持持的的假假设设,用用H H1 1或或H Ha a表表示示,所所表表达达的的含含义义是是总总体体参参数数发发生生了了变变化化或或变变量量之之间间有有某某种种关系关系第 六 章 假设检验1.假假设设检检验验逻逻辑辑上上运运用用反反证证法法,统统计计上上依依据据小小概概率原理率原理2.备备择择假假设设通通常常用用于于表表达达研研究究者者自自己己倾倾向向于于支支持持的的看看法法,然然后后就就是是想想办办法法收收集集证证据据拒拒绝绝原原假假设设,以支持备择假设以支持备择假设 3.小小概概率率是是在在一一次次试试验验中中,一一个个几几乎乎不不可可能能发发生生的事件发生的概率(一般认为小于的
13、事件发生的概率(一般认为小于0.05)在在一一次次试试验验中中小小概概率率事事件件一一旦旦发发生生,我我们们就就有有理理由拒绝原假设由拒绝原假设双侧检验与单侧检验(假设的形式)假假设双双侧检验单侧检验单侧检验左左侧检验右右侧检验原假设原假设H0:=0 0H0:0 0H0:0 0备择假设备择假设H1:0 0H1:0 0以总体均值的检验为例以总体均值的检验为例假设检验的步骤1.提出原假设与备择假设2.确定检验统计量3.确定显著性水平4.用统计量的值或者P值做决策(此步骤需要知道统计量的分布,需要确定是双侧检验还是单侧检验)双侧检验 /2 2 /2 2 Z Z拒绝拒绝拒绝拒绝H H0 0拒绝拒绝拒绝
14、拒绝H H0 00 0 0临界值临界值临界值计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量临界值临界值临界值1/2 1/2 1/2 P P P 值值值1/2 1/2 1/2 P P P 值值值左侧检验 Z Z拒绝拒绝拒绝拒绝H H0 00 0 0临界值临界值临界值计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量P P P 值值值右侧检验 Z Z拒绝拒绝拒绝拒绝H H0
15、 00 0 0计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量临界值临界值临界值P P P 值值值第 六 章 假设检验一个总体参数的检验 总体均值的检验 总体比例的检验 总体方差的检验一个总体均值的检验(作出判断)是否已是否已知知小小小小小小样本量样本量n大大大大大大 是否已是否已知知否否否否否否 t 检验检验否否否否否否z 检验检验是是是是是是z 检验检验 是是是是是是z 检验检验总体比例检验1.假定条件总体服从二项分布可用正态分布来近似(大样本)2.检验的 z 统计量 0 0为假设的总体比例为假设的总体比例为假设的总体比例为假设的
16、总体比例总体方差的检验(2检验)1.检验一个总体的方差或标准差2.假设总体近似服从正态分布3.使用 2分布4.检验统计量假设的总体方差假设的总体方差假设的总体方差假设的总体方差两个总体均值之差的检验(方法总结)均值差检验均值差检验独立样本独立样本匹配样本匹配样本大样本大样本小样本小样本小样本小样本 1 12 2、2 22 2已知已知 1 12 2、2 22 2未知未知 1 12 2、2 22 2已知已知 1 12 2、2 22 2未知未知Z Z 检验检验Z Z 检验检验Z Z 检验检验t t 检验检验 1 12 2=2 22 2 1 12 2 2 22 2t t 检验检验n1 1=n2 2n1
17、 1n2 2t t 检验检验t t 检验检验两类错误与显著性水平1.第类错误(错误)原假设为正确时拒绝原假设第类错误的概率记为,被称为显著性水平2.第类错误(错误)原假设为错误时未拒绝原假设第类错误的概率记为(Beta)无误第类错误第类错误无误H0为真H1为真接受H0拒绝H0第 八章 一元线性回归u相关关系u用散点图描述相关关系u用相关系数度量关系强度 回归分析:回归分析:1.重点考察一个特定的变量(因变量),而把其他变量(自变量)看作是影响这一变量的因素,并通过适当的数学模型将变量间的关系表达出来2.利用样本数据建立模型的估计方程3.对模型进行显著性检验4.进而通过一个或几个自变量的取值来估
18、计或预测因变量的取值第 八章 一元线性回归一元线性回归最小二乘估计Karl Gauss的最小化图(xi,yi)(x1,y1)(x2,y2)(xn,yn)x xy yKarl Gauss的最小化图(xi,yi)(x1,y1)(x2,y2)(xn,yn)x xy y参数的最小二乘估计(和 的计算公式)根据最小二乘法,可得求解 和 的公式如下误差分解图x xy yy y误差平方和的分解(三个平方和的意义)1.总平方和(SSTtotal sum of squares)反映因变量的 n 个观察值与其均值的总误差2.回 归 平 方 和(SSRsum of squares of regression)反映自
19、变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和3.残差平方和(SSEsum of squares of error)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和判定系数R2 (coefficient of determination)1.回归平方和占总误差平方和的比例2.反映回归直线的拟合程度,是度量拟合优度的统计量3.取值范围在 0,1 之间4.R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差5.决定系数平方根等于相关系数第十章 时间序列时间序列:按时间顺序记录的一组数据时间序列的成分:趋势、季节变动、随机性 平稳序列用平滑法预测(简单平均法、移动平均法、指数平滑法)趋势预测方法:线性趋势推测多成分序列的预测:分解预测时间序列预测的程序1.确定时间序列所包含的成分2.找出适合此类时间序列的预测方法,并对可能的预测方法进行评估,以确定最佳预测方案3.利用最佳预测方案进行预测 计算季节指数1.计算各季节的移动平均数2.计算中心化移动平均数3.计算实际值与中心化移动平均数的比4.计算各个季节的季节指数5.调整,使得四个季节指数的平均数为1.