《2023年统计学题.pdf》由会员分享,可在线阅读,更多相关《2023年统计学题.pdf(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第五、六、七章:抽样推断1.总体分布、样本分布、抽样分布总体分布:总体中各个数据的分布样本分布:样本中各个数据的分布抽样分布:样本记录量的概率分布总体的分布通过直方图观测,但一般不也许得到所有的数据,也就不能直接观测到总体分布。只要知道总体的分布类型和反映总体分布特性的参数就可以满足需要。样本分布也称为经验分布,样本来源于总体,会包含总体的信息和特性,特别当样本容量较大时,样本的分布会很接近总体分布,但样本是随机抽取的,一般与总体分布有一定差异。抽样分布是说明样本分布特性的记录量的分布,对它的理解是建立在反复抽样的基础上,样本是随机抽取的,不同的样本会有不同的记录量值,一个总体可以有很多个不同
2、的样本,这样一个记录量就会有很多不同的取值,这些不同值的分布就是抽样分布。由于在实践中对于同一总体我们不会反复抽取很多样本,因此,抽样分布一般不能直接观测到,仅是一种理论分布。抽样分布揭示了样本记录量与总体参数的内在联系,为记录推断提供了理论基础。2.总体单位与抽样单位、样本容量与样本也许数目3.记录量、总体参数及记录量的标准化记录量是样本数据的函数,在实际抽样之前,由于是样本随机的,记录量也是随机的,但在抽取样本之后,样本已经拟定,记录量也就是拟定的,不包含任何未知变量。总体参数是说明记录总体的数据特性值,一般是拟定但未知的,是待估计的。记录量的标准化是记录推断的必要过程,是将具体的记录量转
3、化为已知分布的记录量,转化以后就可以拟定一定区间的概率。4.记录误差、抽样误差、抽样标准误差与抽样边际误差记录误差是记录调查得到的值与客观实际值之间的差异。涉及抽样误差和非抽样误差。非抽样误差又称工作误差或调查误差,是指调查登记过程中由于登记、过录、计算等因素引起的误差。在全面调查和非全面调查中都有也许存在。抽样误差也称为随机误差,是指在坚持了随机抽样的情况下,由于样本的随机性导致样本记录量与总体参数的差异。样本是随机的,样本的记录量也是随机的,而总体参数是唯一的,因而抽样误差也是随机的。在总体参数未知的情况下,一个具体样本的记录量与总体参数的实际抽样误差是不能直接观测到的,但在平均意义上,抽
4、样误差是可以计算求得并可以控制的。抽样误差一般用抽样标准误差来表达。抽样标准误差是样本记录量的标准差,在抽样方法(反复或不反复)、抽 样 方 式(抽样组织形式)和样本容量一定的条件下,对一个总体来讲,抽样标准误差是一定的,不是随机变量。在现实生活中,一般仅取一个样本,不也许将所有也许样本都抽到,因此抽样标准误差仅是一种理论上的误差,不也许直接观测到。影响因素有总体数据离散限度、样本容量大小、抽样组织形式、抽样方法。抽样边际误差是抽样推断中所允许的误差,又称抽样极限误差,是指在一次抽样估计中,配合一定置信水平所拟定的误差范围,一般由调查需求者一一客户提出,即是人为规定的。最初规定期表现为有量纲的
5、绝对数,在记录推断中一般将其标准化,以抽样标准误差作为其计量单位,即以抽样极限误差对抽样平均误差的倍数来表达。抽样边际误差与抽样标准误差不存在拟定的大小关系。抽样标准误差是客观的,抽样边际误差是人为规定的,可以比抽样标准误差大,也可以比抽样标准误差小。抽样极限误差不是最大也许误差,最大也许误差是指所有也许样本的记录量与总体参数的离差中的最大值。5.正态分布、标准正态分布、t分布6.无偏性、有效性与一致性7点估计:直接以样本记录量的值作为参数的估计值,不能说明估计的误差和可靠概率。8.区间估计:以一个区间的形式说明总体参数也许的范围。可以给出估计结果的误差大小和可靠概率。9.置信区间与置信水平、
6、估计精确性与可靠性置信区间是由样本记录量与抽样边际误差拟定的一个随机区间,它的区间宽度是由抽样边际误差拟定的,具体位置是由样本记录量决定。区间的宽度表白估计误差的大小,说明估计的精确性。置信水平是一个概率值,是所有也许的随机置信区间中覆盖总体参数真值的比例。说明估计结果的可靠性。一般来讲置信水平是由记录需求者对记录工作提出的规定。在其他条件如抽样方法、方式、样本容量等不变时,置信区间与置信水平是一对矛盾,即要提 高 精 确 性(缩小置信区间),就得减少可靠性(置信水平减少),若要提高可靠性(加大置信水平),就得容忍较大的误差。要想同时提高精确性和可靠性,就得增长样本容量,或改善抽样方式、方法。
7、10.最小样本容量的拟定影响最小样本容量的因素有总体数据的差异限度(总体方差)、置信水平、边际误差以及抽样方式和方法。总体差异限度越大、所规定的置信水平越高、边际误差越小,所需的样本容量就越多。11.假设检查的基本思想通过样本记录量与假设的总体参数比较来判断假设是否对的。两者一般不一致,产生差异的因素有:1.条件差异;2.随机差异。不同的差异因素产生的差异限度不同,一般情况下,随机差异经常存在,但差异限度不大,假如差异限度较大,说明除随机差异外尚有其他条件差异。假设检查的原理是小概率事件在一次实验中不应当发生,或者说发生的概率很小。在正常条件下,样本记录量与总体参数之间的差异比较小,即该差异较
8、小的概率较大,而该差异较大的概率很小,也就是说在一次实验中,样本记录量与总体参数的差异假如较大,则说明产生差异的因素不只是随机因素,应当尚有其他因素。12.假设检查依据的是小概率原理:反证法若我们的假设是对的的,出现象样本这样的情况的概率是很小的,而这么小概率的事件在一次抽样或实验中是不应当出现的,而现实却出现了,说明我们的前提假设很也许是不成立的。13.小概率标准即显著性水平在抽样前依需要拟定;多小的概率为小,即小 概 率“小”的限度由我们事先规定,当样本这种情况出现的概率小于我们想象的概率时就拒绝原假设。即 c时,就可以拒绝原假设。14.假设检查的结果的对的表述。假设检查的结果只能是拒绝或
9、不拒绝原假设,而不能证明原假设成立;大约率事件不能证明原假设成立,由于出现这种情况的总体不是唯一的,但出现小概率事件在很大限度上说明原假设不成立。不能否认原假设时,只是目前的证据局限性以否认原假设,但不能说原假设就是对的。15.记录假设检查的结果不是绝对对的。记录结果不能教条地理解,不是以绝对的把握否认什么或肯定什么,只是在概率的意义上成立。依据样本的信息对关于总体的假设作出判断,无论是拒绝还是不拒绝,都有也许犯错。1 6.原假设与备择假设原假设的建立(1)将可以带来严重后果的错误置于原假设位置(2)谨慎性原则:不能容易地认为总体发生变化,坚持不变的原则(3)希望原则:将希望获得强有力支持的命
10、题放在备择假设位置(4)根据对总体的了解情况拟定此外注意:等号总在原假设上;两类错误地位不对等,也就是原假设和备择假设地位不等。假设检查是在原假设成立的前提下定义“小概率”的,不可以容易否认原假设,拒绝原假设的也许性不大,除非有强有力的证据,也就是说原假设和备择假设被拒绝的也许性不等。原假设与备择假设:原假设与备择假设是互斥的,但表现形式不一定是对立的。1 7.两类错误一一弃真与取伪假设检查的结果也许是错误的,有也许犯两类错误弃真和取伪弃真:原假设为真而被拒绝,也称为第一类错误。犯这种错误的概率一般用a表达。a事先拟定。取伪:原假设为假而我们没有拒绝,也称为第二类错误。犯这种错误的概率一般用夕
11、表达,只有在知道总体真实分布时才干求得月的值,但在假设检查中不知道总体的真实分布,所以无法求得夕的具体值。a与是一对矛盾,我们要减小犯第一类错误的概率a,就得容忍较大的犯第二类错误的概率 邛,在其他条件不变时,无法同时减小a与夕。要同时减小a与夕,就得增长样本容量或改变抽样方式、方法。1 8.双侧检查与单侧检查当我们只关心差异大小,而不关心差异的方向时,应进行双侧检查;当我们只关心某一方向的差异大小时,应进行单侧检查。19.检查记录量总体均值检查:总体服从正态分布,总体方差已知或大样本时Z检验总体服从正态分布,总体方差未知,小样本时/检验总体比例检查:大样本时Z检验20.P 值是一个概率值,是
12、指当原假设为真是得到样本观测结果或比样本更极端结果的概率。第八章方差分析分析对象:定性变量对定量变量影响分析,是通过比较均值是否相等来判断的。基本原理:将数据间的差异分为随机误差和系统误差。基本环节:计算均值一计算离差平方和一计算均方一构造F 记录量一检查种类:单因素、双因素(无交互作用、有交互作用)第九章:相关与回归1.函数关系与相关关系2.相关系数:密切限度和方向3.相关系数的检查:样本相关系数是依据样本计算的,样本是随机的,样本相关系数也是随机的,样本数据是相关的,并不能说明总体数据间也是相关的,需记录检查。4.相关分析与回归分析Y 对 X 回归方程 相关分析中不区分自变量、因变量,两变
13、量地位平等,回归分析中要区分自变量与因变量。相关分析中两变量都为随机变量,回归分析中,因变量是随机变量,自变量一般是非随机变量。相关分析的目的是分析两个变量相关的限度,回归分析要得到自变量对因变量的影响方式,并用数学方程式表达出来,可以进行预测和控制。5.高斯假定关于回归模型误差项的假定:数学盼望为0 方 差 相 等 正 态 分 布 独 立6.最小平方法依E(y-5)2最小的原理拟合回归方程的方法。估 计 值 事 实 上 是 当 自 变 量x =x,时,相应因变量y所有也许取值的平均值,既E(y)=/(x),最小二乘具有如下特性:Z(y-9)=o最小7.回归系数说明自变量每变动一个单位,因变量
14、平均变动的限度。一元线性回归中回归系数的正负号与相关系数一致。8.回归变差与剩余变差9.估计标准误差1 0.鉴定系数第十章:时间数列1.时间数列平稳序列、非平稳序列时间序列模型:四种 因 素(趋势、季节、周期、随机)互相独立时用加法模型,存在互相影响时用乘法模型。2.环比增长速度与定基增长速度3 .年度化增长率4.增长百分之一绝对值5.移动平均:关键是合理拟定移动步长3攵 越大,对序列数据变化反映越迟缓,对随机变动因素剔除得越多;女 越小对序列数据变化反映越快,对随机变动剔除得越少。有简朴移动平均和加权移动平均。6.指 数平滑是一种特殊的加权平均法,是以上期的实际值与预测值作为本期预测值的一种
15、方法,本质上是历史各期的加权平均,并且从近期到远期各数据的权数以指数速度下降。以第一期的实际值作为第一期的预测值关键是拟定合理的平滑系数a ,时间数列随机波动较大时,选择较大的a,否则选择较小的a。7.季节比率及取值范围季节比率说明现象发展季节波动限度的相对数,大 于1,说明为旺季,小 于1为淡季,假如季节比率均接近1,说明没有季节波动。以季度数据计算的季节指数之和应为4,以月份数据计算的季节指数之和应为1 2。各季节指数的平均数应为1或1 0 0%。8.趋势模型及合用条件逐期增长量(一次差)大体相等:直线方程逐期增长量的逐期增长量(二次差)大体相等:二次曲线环比发展速度或环比增长速度大体相等
16、:指数曲线第 十 一 章 主 成 分、因子分析作用:降维,压缩数据基本原理:方差最大、互相独立基本概念:主成分、特性值、方差奉献率、因子载荷、变量共同度第 十 二 章 聚 类 分 析作用:分类种类:方法一一分层聚类、快 速 聚 类(K 均值聚类)对象一一R型聚类、Q型聚类基本公式储/1.加权算术平均数亍=丹f力1=12.算术平均数的数学性质:才(为-君=0 或 力(x 初 力=0/=1/=1(巧-元)2 =最小 或之(巧-君 =最小/=1i=l3.简朴几何平均数:G =x/2 X=1 1 七5.比率p比率的均值p比率的方差p(l-p),取值范围在00.25之间比率的标准差质,取值范围在00.5
17、之间6.离散系数:VC T=-xl00%X7.抽样标准误差,即抽样记录量的标准差,一般表达为7.1 反复抽样E(x,-x)2定义式:M计算式:窄或7.2不反复抽样8抽样分布一样本平均数x的分布E(x)=X(y。=丹=/=在总体服从正态分布、总体方差已知时,不管大样本还是小样本,样本平均数总是服从正态分布。既有:x N 卬、NQ,1)Jn在总体服从正态分布、总 体 方 差/未 知 时,要用样本方差52替代,则 有 三 垠 九 一),即标准化后的记录量不再服从正态分布,而服从自由度为(n-1)的t分布。但是大样本(N 30)时,t分布接近标准正态分布,也可以按标准正态分布分析。若是小样本5 5,n
18、(l-p)510.抽样分布样本方差的分布(_1川2 22 xf(n-l)11.区间估计11.1 总体平均数或米的区间估计抽样边际误差:AV=Z.置信下限=工 一置信上限a=x+Ax11.2 总体比率口的区间估计置信下限吊=。一八。置信上限a=p+A p11.3 总体方差/的置信区间(-1)$2 /_ 2 /(-1-W b -X a 1 2.(n-)X l-a 12.(n-i)12.假设检查12.1 总体平均数或G的检查总体为正态分布,总体方差已知时,用正态分布即Z记录量检查;总体为正态分布,总体方差未知,且为小样本时,用t分布检查;总体分布未知,大样本时,用正态分布即Z记录量检查。检查记录量为
19、Z或fz记录量:z=半或z=三 半0 7 n s 7 nf记录量:f=上 半s/y/n检查临界值:双侧检查时的临界值匕。/或%/2 g)|单侧检查时的临界值Z 0、或,)、Lg)判断标准:双侧检查|Z|Za/2时拒绝Ho或 卜|4%,2,5T)|时不拒绝 o;1卜|时拒绝”。单侧检查-左侧:2 2 时不拒绝 0;2 -%g)|时不拒绝H;t-鼠”T)|时拒绝/单侧检查-右侧:22 时不拒绝;工之工时拒绝”。或f%T)|时不拒绝。;闫续(,1)|时拒绝”。1 2.2 总体比率P的检查(略,基本方法同上述平均数的检查)1 2.3 总体方差的检查双侧检查:(一了=/%力乙2g)W /w -/2,g)
20、时,不拒绝HoZ2 建 9时,不拒绝”,一 犹 时拒绝右侧检查:/时,不拒绝”。,/2/.”|)时拒绝”。1 3.相关系数总体相关系数P的定义式为:Cov(X,Y)P=-y 7样本相关系数r的定义式为:-2O xyr =-计算式为:=/Z(x-h)(y-力y/Z,(x-x)2 X(y-y)2-(Z x)2 .JZ y 2 _(Z y)21 4.回归系数An L x,y,-Y x,S y;n E x,2-(E x,)2K=y-K x1 5.估计标准误一_ /一(%-)2 _ 1 2-吃 丁 一 吃 犯y-Vn 2 V 77 21 6.鉴定系数产2 =回归变差=Z 一一力之=。+孙一戏2r 总变差
21、 X(y7)2 ZV-戏2或直接用样本相关系数r的平方计算S,和/都是说明回归方程拟合效果的记录量,SVS,越大,说明回归误差越大、回归效果越差,S、越小,说明回归误差越小、回归效果越好,但由于S,一用标准差形式计算的绝对误差,大小限度没有一定标准,不好对某一回归方程作出评价结论,一般不用。而户是相对数,越 接 近1,说明回归效果越好,越接近0,说明回归效果越差。注意:简朴相关系数厂与鉴定系数非的关系,简朴相关系数是针对两个变量而言的,说明两个变量的相关限度,而鉴定系数是针对回归方程整体而言的,不一定是两个变量。但在一元线性回归分析中,两者的结果是一致的。1 7.一元线性趋势方程(趋势直线)合用条件:一次差大体相等y-a+hta=y-bi一吃()2