应用统计之数据的整理与抽样.pptx

上传人:修**** 文档编号:5710413 上传时间:2022-01-15 格式:PPTX 页数:62 大小:496.67KB
返回 下载 相关 举报
应用统计之数据的整理与抽样.pptx_第1页
第1页 / 共62页
应用统计之数据的整理与抽样.pptx_第2页
第2页 / 共62页
点击查看更多>>
资源描述

《应用统计之数据的整理与抽样.pptx》由会员分享,可在线阅读,更多相关《应用统计之数据的整理与抽样.pptx(62页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、本资料来源 4、数据的描述性指标 频数分布所给定的是一个分布形状,要进一步描述和刻画其分布的数量特征,则需要计算数据的集中趋势和离散程度。它们是反映数据分布数量规律的一对代表值。 若所描述的数据是所观察研究的总体,则称这些代表值为参数; 若所描述的数据仅是总体中随机抽取的一个样本,则称这些代表值为统计量。 一、集中趋势 集中趋势亦称趋中性。它表示同类现象在一定时间、地点条件下所达到的一般水平与大量单位的综合数量特征。集中趋势有三个特点: 它用一个代表值综合反映总体各单位 (所有个体) 某种标志值的一般水平或代表水平; 它抽象掉了各个个体之间标志值的差异; 它一般用单位的数值表示,其计量单位与标

2、志值的计量单位相一致。 集中趋势的作用: 可方便地比较若干总体的某种标志值的平均水平,说明它们在某一数量标志上的差异。如平均成绩、平均身高等; 可研究总体某种标志值的平均水平随时间的变化,说明其发展趋势和规律。如人均收入的变化、劳动生产率的变化等; 可分析社会经济现象间的依存关系,为此必须采用分组的方法。 4、可作为评价事物优劣的数量标准。如各批产品合格率; 5、可用以计算和估算其他重要经济指标(如由人均收入估算社会购买力)。 统计学上对集中趋势有以下几种主要测度值: 1、均值 均值又称算术平均数。是数据集中趋势的主要测度值。对于未经整理的原始数据,一般用以下公式: 简单算术平均数 如平均工资

3、、平均身高、平均成绩等的计算。niinnxnxxxx121NiiNNXNXXXX121Xx均值观察值容量总体N样本niXix 例:某班级 28 名学生的应用统计学成绩如下: 72 85 64 92 76 73 87 82 96 66 77 65 57 90 71 69 70 74 68 79 60 53 75 88 72 78 61 67 计算该班学生应用统计学的平均成绩。 解:82.7328206728676178648572X 简单算术平均数较准确地描述了总体与个体之间的数量关系,其描述方式同时考虑了变量值的次数和变量值的大小对集中趋势的影响,数列中任何数值和次数的变化都会引起算术平均数的

4、改变,它是最灵敏、对资料运用最充分的指标。 加权算术平均数 当数据是已经分组的频数分布资料时,计算算术平均数需要用加权平均法。“权”即占总次数的比重。近似算法如下: KKKffffXfXfXX212211KiKiiiiKiiKiiiffXffX1111 kkkffffxfxfxx212211kikiiiikiikiiiffxffx1111均值组中值组数总体K样本kiXixXx成绩分组组中值 人数5060552110607065852070807511825809085434090100953285合计282080ifiifX29.7428208011KiiKiiiffXX 在使用组中值 作为第

5、 i 组的代表值时,假设各组数据在组内分布均匀,但实际上并非如此,所以计算的均值会产生误差。 均值不仅受组中值大小的影响,而且也会受权数 的影响,权数 越大,则该组数值对均值的影响就越大。由均值的计算公式很容易看出这一点。iXififKiKiiiiffXX11 月工资 (元) 员工数 (人) 各组平均工资 工资总额 f x xf 1600以下 40 1550 6200016001700 100 1650 16500017001800 200 1750 35000018001900 400 1850 74000019002000 450 1950 87500020002200 250 2100

6、525000 2200以上 60 2300 138000 合 计 1500 2855000 = 2855000/1500 = 1903.33 元算术平均数的特点: 各变量值与其算术平均数的离差之和等于 0,即 各变量值与其算术平均数的离差平方和为最小值 (相对于其他任何数),即01niixx最小值min12niixxiiiffxx 例如,为分析某乡农民家庭生活水平与家庭人口的关系,则需按人均月收入对该乡农户分组。也可按户人口数分组。人均月收入(分组) 调查户数 人口数 户均人口数 250以下 9 54 6.0 250300 9 49 5.4 300350 31 162 5.2 350400 9

7、6 403 4.2 400600 69 239 3.5 600以上 12 35 2.9 合 计 226 942 4.2 2、几何平均数 它是与算术平均数不同的另一种平均数,主要用于环比发展速度或比率均值的计算。 简单几何平均数 这是在资料未分组情况下采用的一种计算方法。其中, 是第 i 期的发展速度或比率。nniinnaaaaG1121ia某企业“九五”期间产品销售额的年增长速度为因 ,所以可用对数计算几何平均数。 年 份 1995 1996 1997 1998 1999 2000增长速度 (%) 27 18 23 16 25相对前一年 (%) 127 118 123 116 125相对199

8、5 (%) 100 127 149.9 184.3 213.8 267.3niinaG1naGnii1lnln%7.121G 加权几何平均数 在资料已经分组,每个变量值出现次数或比重不等时,应使用加权几何平均。即对数计算公式为niiniiiGfxfM11lnlnniinnffffGxxxM12211 假设投资银行某项投资的年利率按复利计算,25年的年利率分配为:有1 年 3 %,有4 年 4 %,有 8 年 8 %,有10 年10 %,有 2 年15 %,求平均年利率。(单利: )25121084115. 110. 108. 104. 103. 1G%5 .108%6 .262565. 625

9、1%5 .1082512525GR 3、中位数 将一组变量值按大小顺序排列,位于数列中间位置的变量值即为中位数。由于中位数居于数列正中,所以它可以作为代表一般水平和集中趋势的代表值。在标志变异度较大的情况下,可避免极端数值 (不稳健) 的影响。 单项变量数数列 中位数为 为中位数的位置。21NXX21N 例:某班级 28 名学生的应用统计学成绩如下: 72 85 64 92 76 73 87 82 96 66 77 65 57 90 71 69 70 74 68 79 60 53 75 88 72 78 61 67 计算该班学生应用统计学成绩的中位数。 解:N = 28,Me= (N+1)/2

10、 = (28+1)/2 = 14.5 对成绩顺序排列后,X14 = 72, X15 = 73 5 .722737221514XXX 组距变量数列 确定中位数所在组 计算公式为 N/2 或 ,N 和 为总次数; 计算中位数 下限公式含有中位组均匀分布的假设。2ffdfSfLXemm12其中,L 中位数所在组的下组限; 数值在 L 之下各组的累计次数; 中位数所在组的次数; d 中位数所在组的组距。上限公式1mSemfdfSfUXemm12 例:成绩分组组中值 人数5060552110607065852070807511825809085434090100953285合计282080ifiifX

11、解:N = 28,L = 70,Sm-1 = 10, = 11,d = 10显然,64.731011101470emfdfSfLXemm12 例: 年收入额 (元) 农户数 百分比 (%) 26002800 240 8 28003000 480 16 30003200 1050 35 32003400 600 20 34003600 270 9 36003800 210 7 38004000 120 4 42004400 30 1 合 计 3000 100 解:N = 3000,L = 3000,Sm-1 = 720, = 1050,d = 200显然,6 .31482001050720150

12、03000emfdfSfLXemm12 4、四分位数 四分位数是将数据排序后,将数据四等分的三个数值,其中中间的数值是中位数。在中位数与最大值和中位数与最小值之间再找到两个数值,即可将数据四等分。 四分位数的三个分割点的位置分别为411 NNQ4122NNQ4133NNQ41NiNiQ 上四分位数 若上四分位数为 Xi,则 下四分位数 若下四分位数为 Xj,则其中, 表示向上取整。Ni43Nj41 在资料分组的情况下,四分位值的三个点分别以 N/4、2N/4 和 3N/4 定位,之后求3个四分位数。第 i 个四分位点的值为其中, 第 i 个分位值所在组的下限; 其前各组的累计次数; 其所在组的

13、次数; 其所在组的组距。iiiiQQQQidfNNiLQ4iQLiQNiQfiQd 5、众数 众数是将数据按大小顺序排队后,出现次数明显最多或最有明显集中趋势的点的数值。 它是指在总体中最常遇到的现象,即在一个数列中出现最多的标志值。例如,大多数工人可完成的工作量、大多数人的收入、最一般的身高等。 它不受变量数列极值的影响,用具有次数最多的标志值描述集中趋势,代表的范围最广。但是,众数的取得必须在个体数足够多且又有明显集中趋势时才有意义。 如果分布没有明显的最高点,则众数不存在。如果有两个相同的最高点,也可有两个众数。M0M0M0M0众数的确定方法 若为单项变量数列,则变量出现次数最多 (频率

14、最高) 的变量值就是众数。 日班次平均加工零件数量 (个) x 工人数 (人) f 50 20 55 30 60 80 65 10 70 5 合计 145 若为等组距变量数列,则分两步:年收入额 (元) 农户数 百分比 (%) 26002800 240 8 28003000 480 16 30003200 1050 35 32003400 600 20 34003600 270 9 36003800 210 7 38004000 120 4 42004400 30 1 合 计 3000 100 确定众数组 频次最高的一组为众数组。30003200元之间; 计算众数 与众数组相邻的两组数频次的多

15、少有关: 若相邻两组数的频次相等,则众数组的中值就是众数; 若相邻两组数的频次不等,则众数为其中:L 众数组的下限值; 众数组与其下限相邻组的频次差; 众数组与其上限相邻组的频次差; d 众数组的组距。dLMo21112(下限公式) 在本例中,L=3000 d=3200-3000=200 =1050-480=570 或 =35%-16%=19% =1050-600=450 或 =35%-20%=15%则或 上限公式为12218 .3111200%15%19%193000oM8 .31112004505705703000oMdUMo212 例:计算全班学生应用统计学的众数。成绩分组 人数5060

16、26070870801180904901003合计28if 解:L=70, , ,d=10 731073370211dLMo3811174112 在度量集中趋势的几种均值指标中,算术平均数、中位数、众数最为重要。三者之间存在如下关系: 当次数分布完全对称时, 当次数分布为偏态时,oMXXXXXXXMo233 6、集中趋势分析应注意的几个问题 只有同质总体才能计算平均值,各个体之间仅存在数量差异; 在分组的条件下,总体的均值不仅受组的均值大小的影响,同时还受总体内部结构变动的影响。当总体内部结构变化时,总体均值就不能全面、准确地反映现象的特征和规律; 应以分布数量和典型事例作补充说明总体的集中趋

17、势; 应与离散趋势分析相结合,以全面反映现象个体的差异。二、离散趋势 1、问题的提出 集中趋势反映了总体单位 (个体) 标志值分布特征的一个重要方面,但仅用此指标描述这些标志的一般水平是不够的。 要全面描述总体单位标志值的分布特征,必须对标志值的差异性进行研究。 离中趋势是指一组变量值背离分布中心值的特征,它与集中趋势共同说明总体的分布特征。 2、离中趋势度量的目的 描述总体内部差异程度,反映社会经济活动的均衡性,为管理决策提供信息。班级 语文 数学 历史 地理 化学 物理 总评甲班 82 86 80 83 83 84 83乙班 75 89 84 78 80 92 83 衡量和比较均值指标代表

18、性的高低 离中趋势指标数值的大小和均值代表程度高低有密切关系。 离中趋势指标数值越大,均值的代表性就越小;而离中趋势指标数值越小,均值的代表性就越大。 这充分说明,均值代表性的大小必须与离中趋势指标结合运用。 为选取样本单位数提供依据。 各个体标志值变异度越小,即总体越一致,则为获取代表性资料,只需选取较少的样本单位;反之,就需要选取较多的样本单位。 3、离中趋势度量方法 按总体内单位标志值差异距离度量。如极差、四分位差等; 按异众比例度量; 按个体标志值的平均离差度量。如平均差、标准差等。 离中趋势的度量由变异指标给出,它可以是绝对数,也可以是相对数。 4、极差 极差又称为全距,是数据离散或

19、差异程度的最简单的测度值。 全距的计算是数据的最大值与最小值之差。即或iiXXRminmax 1XXRN 例:计算全班学生应用统计学成绩的极差。 解: 显然,数据越分散,则极差越大。极差易受极端数据的影响,而中间数据的变化对它无任何影响。96maxiX53miniX435396minmaxiiXXR 5、方差和标准差 方差 未分组数据 总体方差; 样本方差; NXXNii1221122nxxSnii222S 称 n-1 为自由度。 因为当样本 确定之后,样本 n 个数据中只有 n-1 个可以自由变动,即样本数据中只有 n-1 个误差的有用信息。 另一种解释是,样本方差之所以要除以 n-1 ,是

20、为保证样本方差 对总体方差 估计的无偏性。22Sx 分组数据 对于分组数据的方差,还要考虑各组的次数,即对其离差平方和加权。kiiKiiiffXX112211122kiikiiiffxxS 标准差 、S 标准差就是方差的平方根。即NXXNii12112nxxSnii 方差与标准差的关系 方差与标准差的差异在于对离差的处理不同。 方差不仅便于数学上进一步计算,而且其统计推断的性质也优于标准差; 方差与标准差都是以均值为比较中心,它们都是离差的某种平均; 方差的大小不仅可以反映数据离散程度的大小,而且也反映均值代表性的高低。方差小,则均值的代表性强;方差大,则均值的代表性弱。 例: 甲 组 乙 组

21、生产件数 离 差 离差平方 生产件数 离 差 离差平方 x x 73 -2 4 5329 50 -25 625 2500 74 -1 1 5476 65 -10 100 4225 75 0 0 5625 70 -5 25 4900 76 1 1 5776 90 15 225 8100 77 2 4 5929 100 25 625 10000 合计 10 28135 合计 1600 297252x2xxxxx2xx2xx75甲x75乙x 例:计算全班学生应用统计学成绩的方差和标准差。序号 分数序号 分数序号 分数172 -1.8213.31811773.17910.1032160 -13.821

22、191.032285 11.179 124.9601265-8.82177.8182253 -20.821433.532364 -9.82196.4601357 -16.821 282.96023751.1791.389492 18.179 330.4601490 16.179 261.746248814.179201.0325762.1794.7461571-2.8217.9602572-1.8213.318673 -0.8210.6751669-4.82123.24626784.17917.460787 13.179 173.6751770-3.82114.6032761 -12.8211

23、64.3898828.17966.88918740.1790.0322867-6.82146.532996 22.179 491.8891968-5.82133.889 合计3152.1071066 -7.82161.17520795.17926.818XXiXXiXXi2XXi2XXi2XXi 解:N=28, ,575.11228107.3152122NXXNii107.315212NiiXX610.10821.73X 例:用分组数据计算全班应用统计学成绩的方差和标准差。成绩分组组中值fi506055-18.64347.452694.90607065-8.6474.658597.207080751.361.851120.3580908511.36129.054516.20901009521.36456.2531368.75合计283197.40XXi2XXiiifXX2 解:N=28, ,193.1142840.3197122NfXXKiii40.319712KiiifXX686.1064.73X 利用前面的公式计算方差或标准差比较麻烦。常常利用它们的变形公式。NXNXXXNXXNiiNiiNii21121222212212XNXNXNXNiiNii 对于分组数据,有2122XNfXKiii

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 其他资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁