《2022年统计学知识点含计算.docx》由会员分享,可在线阅读,更多相关《2022年统计学知识点含计算.docx(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选学习资料 - - - - - - - - - 学问点精编1.组数:一般为 5-15 2.确定组距:组距 Class Width 是一个组的上限与下限之差,可依据全部数据的最大值和最小值及所分的组数来确定,即组距 最大值- 最小值 组数3.统计出各组的频数并整理成频数分布表下限 lower limit :一个组的最小值2. 上限 upper limit :一个组的最大值3. 组距 class width :上限与下限之差4. 组中值 class midpoint :下限与上限之间的中点值封闭式组距数列:a 组距上限下限b 组中值(上限 +下限) /2 c 缺下限开口组组中值上限1/2 邻组组
2、距d 缺上限开口组组中值下限 +1/2 邻组组距k样本 平均数xi1Mifi总体用 标准差 ,记为 s2s n总体方差 标准差 ,记为 s2s;依据样本数据运算的,称为样本方差方差 未分组s2in1x i1x2分组s2ikMix2fin1n1体会法就 说明:当一组 数据对称分布 时约有 68%的数据在平均数加减 1 个标准差的范畴之内约有 95%的数据在平均数加减 2 个标准差的范畴之内约有 99%的数据在平均数加减 3 个标准差的范畴之内切比雪夫不等式1.假如一组数据不是对称分布,体会法就就不再适用,这时可使用切比雪夫不等式,它对任何分布外形的数据都适用2.切比雪夫不等式供应的是“下界 ”,
3、也就是 “所占比例至少是多少”3.对于任意分布外形的数k据,依据切比雪夫不等式,至少有1-1/k2 的数据落在平均数加减k 个标准差之内;其中是大于 1 的任意值,但不肯定是整数对于 k=2 ,3, 4,该不等式的含义是1.至少有 75%的数据落在平均数加减2 个标准差的范畴之内s2.至少有 89%的数据落在平均数加减3 个标准差的范畴之内3.至少有 94%的数据落在平均数加减4 个标准差的范畴之内离散系数标准差与其相应的均值之比运算公式为vsx统计量设 X1,X2 , ,Xn 是从总体X 中抽取的容量为n 的一个样本,假如由此样本构造一个函数TX1,X2 , ,Xn ,不依靠于任何未知参数,
4、就称函数 TX1,X2 , ,Xn 是一个统计量样本均值、名师归纳总结 - - - - - - -第 1 页,共 13 页精选学习资料 - - - - - - - - - 学问点精编样本比例、样本方差等都是统计量 统计量是样本的一个函数统计量的分布称为 抽样分布 ;1.样本统计量的概率分布,是一种理论分布在重复选取容量为 n 的样本时,由该统计量的全部可能取值形成的相对频数分布2.随机变量是样本统计量样本均值 , 样本比例,样本方差等3.结果来自容量相同的全部可能样本4.供应了样本统计量长远而稳固的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据几种常用的抽样分布: (正态分布中的几种
5、统计量的分布)把2分布( z),t分布,F 分布,点估量 用样本的估量量的某个取值直接作为总体参数的估量值例如:用样本均值直接作为总体均值的估量;区间估量 在点估量的基础上,给出总体参数估量的一个区间范畴,该区间由样本统计量加减估量误差而得到1. 置信水平表示为1- 为是总体参数未在区间内的比例3.常用的置信水平值有99%, 95%, 90% 相应的为 0.01,0.05,0.10 假定条件总体听从正态分布,且方差 s 已知n 30 zxnN 1,0t未知假如不是正态分布,可由正态分布来近似2.使用正态分布统计量z 3.总体均值m 在 1-a 置信水平下的置信区间为xz2 2n或xz2 2s置
6、信水平aa/2Za/2n90%0.10.051.645 n195%0.050.0251.96假定条件txns小样本 总体听从 正态分布 ,但方差 s 未知n ,结论为按 所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;假如 P ,结论为按所取 水准显著,拒绝 H0,接受 H1,就认为此差别不大可能仅由抽样误差所致,很可能是试验因素不同造成的,故在统计上成立;P 值的大小一般可通过查阅相应的界值表得到;Z X 0 0n1.P 值是一个概率值2.假如原假设为真,P-值是抽样分布中大于或小于样本统计量的概率左侧检验时, P-值为曲线上方小于等于检验统计量部分的面积右
7、侧检验时, P-值为曲线上方大于等于检验统计量部分的面积3.被称为观看到的 或实测的 显著性水平H0 能被拒绝的最小值方差分析 通过检验各总体均值是否相等来判定分类型自变量对数值型因变量的是否有显著影响用于两个及两个以上样本均数差别的显著性检验;方差分析的基本假定1.每个总体都应听从正态分布对于因素的每一个水平,其观看值是来自听从正态分布总体的简洁随机样本(1)每个总体都听从正态分布(2)观看值相互独立(3)各个总体样本方差必需相同x i in n ii1 1x ij iji,1 ,2,k k xi ik kn n i i1 1x ij ijk kn iix iin k k1、建立检验假设;j
8、 j1 1j jii1 1H0:多个样本总体均数相等;n i innH1:多个样本总体均数不相等或不全等;式中:nn 1 1n 2 2检验水准为0.05;2、运算检验统计量F 值;3、确定 P 值并作出推断结果;名师归纳总结 SSTi ik kn nix ij ijx x2 2n n i ixij ijSSAk kn n ix i ix2 2k kn i ix x iij ijx x2 22 2SSEi ik kn n iix ij ijx i i2 21 1j j1 1x2 2i i1 1j j1 1x2 2i i1 1xi i1 1j j1 1k kk kx i ik kn n i ixn
9、 i ii i1 1j j1 1i i1 1i i1 1j j1 1第 3 页,共 13 页- - - - - - -精选学习资料 - - - - - - - - - 学问点精编 SST = SSA + SSE SST 的自由度为n-1,其中 n 为全部观看值的个数MSESSE SSESSA 的自由度为k-1,其中 k 为因素水平 总体 的个数SSE 的自由度为n-k 组内方差nk组间方差MSASSAF 值P 值F 临界值k1误差来源平方和 SS 自由度 df 均方 MS 组间 因素影响 SSA 组建平方和 k-1 MSA 组间方差MSA/MSE 组内 误差 SSE 组内平方和 n-k MSE
10、 组内方差2 2SSA 组间平方和 组间平方和总和SST 总平方和n-1 FMSAF F k k,1 ,1 n nk k RMSESST 总平方和x i.双因素方差分析分析两个因素 行因素 Row 和列因素 Column 对试验结果的影响j,1 ,2,rrkx ijx ijj1 i,2,1,k x .ji1k rr rkxxij iji1j j1 1行平 均值列平均值总平均值kr运算平方和 SSSSRikik1j jr rxi i. .x2 2SSCkjr1ix .jjr1x2x2 211 1i1SSE1rx ijx ix .jx2SSTkx ijj名师归纳总结 1第 4 页,共 13 页-
11、- - - - - -精选学习资料 - - - - - - - - - 学问点精编行因素误差平方和SSR列因素误差平方和SSC随机误差项平方和SSE总误差平方和SSTSST = SSR +SSC+SSE 运算均方 MS 误差平方和除以相应的自由度 三个平方和的自由度分别是.总误差平方和SST的自由度为kr-1 kH0 的决策SSE1.行因素平方和SSR的自由度为k-1 .列因素平方和SSC的自由度为r -1 .误差项平方和SSE的自由度为 k-1 r -1行因素的均方 MSR,列因素的均方MSC,误差项的均方MSE,MSR SSRMSC SSC MSE将统计量的值 F 与给定的显著性水平 k
12、1 a 的临界值 Fa 进行比较,作出对原假设 r 11 r 依据给定的显著性水平a 在 F 分布表中查找相应的临界值Fa 如 FRFa ,拒绝 原假设 H0 ,说明均值之间的差异是显著的,即所检验的行因素对观看值有显著影响 如 FC Fa , 拒绝 原假设 H0 ,说明均值之间有显著差异,即所检验的列因素对观看值有显著影响名师归纳总结 行因素的统计量列因素的统计量F 值临界值F RMSR MSEFk,1 k1 r1F CMSC MSEFr,1 k1 r1均方 MS 误差来源平方和 SS自由度 dfF 值P 值=ss/df 查表行因素SSR k- 1MSR MSR/MSE 于 a=0.05 比
13、较列因素SSC r-1 小于 a 拒绝,MSC MSC/MSE 大于不拒绝F 大于 Fa 拒绝 显著小于不拒绝不显著误差SSE k- 1 r -1MSE 第 5 页,共 13 页总和SST SST = SSR +SSC+SSEkr-1 - - - - - - -R2 2SSRi in ny . i iy2 21i in ny i精选学习资料 - - - - - - - - - i y . 2 2x 和误差项e 的方程称为 回来模型1 11 1学问点精编SSTi in ny i iy2 2i in ny . i iy2 21 11 11. 一元线性回来模型描述因变量y 如何依靠于自变量2. 一元
14、线性回来模型可表示为 y = b0 + b1 x + eny 是 x 的线性函数 部分 加上误差项n 线性部分反映了由于 x 的变化而引起的 y 的变化n 误差项 e 是随机变量l 反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响l 是不能由 x 和 y 之间的线性关系所说明的变异性nb0 和 b1 称为模型的参数误差平方和1. 总平方和 SSTtotal sum of squares n 反映因变量的 n 个观看值与其均值的总误差2. 回来平方和 SSRsum of squares of regressionn 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由
15、于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可说明的平方和3. 残差平方和 SSEsum of squares of error n 反映除x 以外的其他因素对y 取值的影响,也称为不行说明的平方和或剩余平方和1. 总平方和 SSTtotal sum of squares n 反映因变量的 n 个观看值与其均值的总误差2. 回来平方和 SSRsum of squares of regressionn 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可说明的平方和3. 残差平方和 SSEsum of sq
16、uares of error n 反映除x 以外的其他因素对y 取值的影响,也称为不行说明的平方和或剩余平方和判定系数 R2回来平方和占总误差平方和的比例2. 反映回来直线的拟合程度3. 取值范畴在 0 , 1 之间4. R2 . 1,说明回来方程拟合的越好;越差R2. 0,说明回来方程拟合的名师归纳总结 5. 判定系数等于相关系数的平方,即R2r2第 6 页,共 13 页- - - - - - -精选学习资料 - - - - - - - - - 学问点精编1.统计量 P156 依据样本量构造出来的一个函数 2.抽样分布 P160 3.点估量 P176 4.区间估量 P176 5.假设检验 P
17、 值的含义 P214 6.利用 P 值进行检验单侧检验 P不拒绝 H0 P( /2) 不拒绝 H0 P|z2| 拒绝 Ho. 不符合标准711 某企业生产的袋装食品采纳自动打包机包装,每袋标准重量为的一批产品中按重复抽样随机抽取50 包进行检查,测得每包重量每包重量( g)包数9698 2 98100 3 100102 34 102104 7 104106 4 合计50 已知食品包重量听从正态分布,要求:1确定该种食品平均重量的 95的置信区间;解:大样本,总体方差未知,用 z 统计量z x N 0,1sn样本均值 =101.4,样本标准差 s=1.829 置信区间:x z 2 s , x z
18、 2 sn n1 =0.95,z 2 = z 0.025 =1.96 x z 2 s , x z 2 sn n= 101.4 1.96 1.829 ,101.4 1.96 1.829=(100.89,101.91)50 502假如规定食品重量低于 l00g 属于不合格,确定该批食品合格率的 95的置信区间;解:总体比率的估量名师归纳总结 大样本,总体方差未知,用z 统计量第 9 页,共 13 页- - - - - - -精选学习资料 - - - - - - - - - 学问点精编zp1pN0,1pn样本比率 =(50-5) /50=0.9 置信区间:p 1 p p 1 pp z 2 , p z
19、 2n n1 =0.95,z 2 = z 0.025 =1.96 p 1 p p 1 pp z 2 , p z 2n n0.9 1 0.9 0.9 1 0.9= 0.9 1.96 ,0.9 1.96 =(0.8168,0.9832)50 50上网的那个, 225 个样本,均值 =6.5 S=2.5 n=225(这个没抄全)1. 以 95%的置信水平建立样本区间估量2. 20 岁以下 90 个人, 20 岁以下 上网比例用户区间同 7.11 其次问大样本,总体方差已知,用z 统计量zp1ppnp=90/225=0.4 1=0.95,z2=z 0.025=1.96 置信区间:pz2p1p,pz2p
20、1pnn0.4 1.96*0.4* (1-0.4)/2250.5 0.4 0.064013332 0. 464,0.336 样本 30 个,名师归纳总结 - - - - - - -第 10 页,共 13 页精选学习资料 - - - - - - - - - 学问点精编1. 销售价格2. 各地区年均收入因变量:地区产品销售额线性回来 列出方程,说明费用人均收入对费用的影响P 357 判定系数11.9 某汽车生产商欲明白广告费用 x 对销售量 y 的影响,收集了过去 12 年的有关数据;通过运算得到下面的有关结果:方差分析表变差来源dfSSMSFSignificanceF回来1 1602708.6
21、1602708.6 399.1000065 2.17E 09残差10 40158.074015.807 总计111642866.67参数估量表InterceptCoefficients标准误差tStatPvalue363.689162.455295.8231910.000168XVariable11.4202210.07109119.977492.17E 09要求:1完成上面的方差分析表;2汽车销售量的变差中有多少是由于广告费用的变动引起的 . 3销售量与广告费用之间的相关系数是多少 . 4写出估量的回来方程并说明回来系数的实际意义;5检验线性关系的显著性 a 0.05;解:( 2)R 2=0
22、.9756,汽车销售量的变差中有 97.56%是由于广告费用的变动引起的;(3) r=0.9877;(4) y=363.6891+1.1420221x 回来系数的意义:广告费用每增加一个单位,汽车销量就增加 1.42 个单位;(5)回来系数的检验:p=2.17E 09,回来系数不等于 0,显著;回来直线的检验:p=2.17E 09,回来直线显著;12.4 一家电器销售公司的治理人员认为,每月的销售额是广告费用的函数,并想通过广告费用对月销售额作出估量;下面是近8 个月的销售额与广告费用数据:名师归纳总结 月销售收入y万元 电视广告费用工:x1 万元 报纸广告费用x2万元 第 11 页,共 13
23、 页- - - - - - -精选学习资料 - - - - - - - - - 学问点精编96 50 1.5 90 2 0 20 95 4 0 15 92 2 5 2.5 95 3 0 33 94 3 5 23 94 2 5 42 94 3 0 25 要求:1用电视广告费用作自变量,月销售额作因变量,建立估量的回来方程;2用电视广告费用和报纸广告费用作自变量,月销售额作因变量,建立估量的回来方程;3上述 1和2所建立的估量方程, 电视广告费用的系数是否相同 行说明;.对其回来系数分别进4依据问题 2所建立的估量方程,在销售收入的总变差中,被估量的回来方程所说明的比例是多少 . 5依据问题 2所
24、建立的估量方程,检验回来系数是否显著 a=0.05;SUMMARY OUTPUT回来统计Multiple R 0.958663444R Square 0.9190356Adjusted R Square 0.88664984标准误差 0.642587303观测值 8方差分析回来分析dfSSMSFSignificance FUpper 95%223.4354111.717728.377770.00186524残差52.0645920.412918P-valueLower 95%总计725.5t StatCoefficients标准误差Intercept83.230091691.57386952.
25、882484.57E-0879.184339487.2758电视广告费用工:x1 万元 2.2901836210.3040657.5318990.0006531.508562073.07180报纸广告费用x2 万元 1.3009890980.3207024.0566970.0097610.476600752.12537解:( 1)回来方程为:y .88.64+1.6x名师归纳总结 ( 2)回来方程为:y .83.232.29 x 11.3x21 万元,月销售额增加1.6 万元;(2)第 12 页,共 13 页( 3)不相同,(1)中说明电视广告费用增加- - - - - - -精选学习资料 -
26、 - - - - - - - - 学问点精编中说明,在报纸广告费用不变的情形下,电视广告费用增加1 万元,月销售额增加2.29 万元;( 4)判定系数R2= 0.919,调整的2 R = 0.8866,比例为 88.66%;(5)回来系数的显著性检验:Coefficients 标准误差 t Stat P-value Lower 95% Upper 95%下 限 95.0%上限 95.0%Intercept 83.23009 1.57386952.882484.57E-08 79.18433 87.27585 79.18433 87.27585电视广告费用工:x1 万元 2.290184 0.3
27、040657.5318990.000653 1.508561 3.071806 1.508561 3.071806报纸广告费用 x2万元 1.300989 0.3207024.0566970.009761 0.476599 2.125379 0.476599 2.125379假设: H 0:1=0 H 1:1 0 t= 1 =2.29 =7.53 S 1 0.304t 0.0255 =2.57, t t 0.0255,认为 y 与 x 1线性关系显著;(3)回来系数的显著性检验:名师归纳总结 假设: H 0:2=0 H 1:2 0 第 13 页,共 13 页t=S2=1.3 0.32=4.05 2t 0.0255=2.57, t t 0.0255,认为 y 与 x2线性关系显著;- - - - - - -