《应用统计之数据的整理与抽样42713.pptx》由会员分享,可在线阅读,更多相关《应用统计之数据的整理与抽样42713.pptx(63页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、本资料来源数据的整理与抽样数据的整理与抽样 4、数据的描述性指标 频数分布所给定的是一个分布形状,要进一步描述和刻画其分布的数量特征,则需要计算数据的集中趋势和离散程度。它们是反映数据分布数量规律的一对代表值。若所描述的数据是所观察研究的总体,则称这些代表值为参数;若所描述的数据仅是总体中随机抽取的一个样本,则称这些代表值为统计量。数据的整理与抽样数据的整理与抽样 一、集中趋势 集中趋势亦称趋中性。它表示同类现象在一定时间、地点条件下所达到的一般水平与大量单位的综合数量特征。集中趋势有三个特点:它用一个代表值综合反映总体各单位(所有个体)某种标志值的一般水平或代表水平;它抽象掉了各个个体之间标
2、志值的差异;它一般用单位的数值表示,其计量单位与标志值的计量单位相一致。数据的整理与抽样数据的整理与抽样 集中趋势的作用:可方便地比较若干总体的某种标志值的平均水平,说明它们在某一数量标志上的差异。如平均成绩、平均身高等;可研究总体某种标志值的平均水平随时间的变化,说明其发展趋势和规律。如人均收入的变化、劳动生产率的变化等;可分析社会经济现象间的依存关系,为此必须采用分组的方法。数据的整理与抽样数据的整理与抽样 4、可作为评价事物优劣的数量标准。如各批产品合格率;5、可用以计算和估算其他重要经济指标(如由人均收入估算社会购买力)。数据的整理与抽样数据的整理与抽样 统计学上对集中趋势有以下几种主
3、要测度值:1、均值 均值又称算术平均数。是数据集中趋势的主要测度值。对于未经整理的原始数据,一般用以下公式:数据的整理与抽样数据的整理与抽样 简单算术平均数 如平均工资、平均身高、平均成绩等的计算。均值观察值容量总体N样本n数据的整理与抽样数据的整理与抽样 例:某班级 28 名学生的应用统计学成绩如下:72 85 64 92 76 73 87 82 96 66 77 65 57 90 71 69 70 74 68 79 60 53 75 88 72 78 61 67 计算该班学生应用统计学的平均成绩。解:数据的整理与抽样数据的整理与抽样 简单算术平均数较准确地描述了总体与个体之间的数量关系,其
4、描述方式同时考虑了变量值的次数和变量值的大小对集中趋势的影响,数列中任何数值和次数的变化都会引起算术平均数的改变,它是最灵敏、对资料运用最充分的指标。数据的整理与抽样数据的整理与抽样 加权算术平均数 当数据是已经分组的频数分布资料时,计算算术平均数需要用加权平均法。“权”即占总次数的比重。近似算法如下:数据的整理与抽样数据的整理与抽样均值组中值组数总体K样本k数据的整理与抽样数据的整理与抽样成绩分组组中值 人数5060552110607065852070807511825809085434090100953285合计282080数据的整理与抽样数据的整理与抽样 在使用组中值 作为第 i 组的代
5、表值时,假设各组数据在组内分布均匀,但实际上并非如此,所以计算的均值会产生误差。均值不仅受组中值大小的影响,而且也会受权数 的影响,权数 越大,则该组数值对均值的影响就越大。由均值的计算公式很容易看出这一点。数据的整理与抽样数据的整理与抽样 月工资(元)员工数(人)各组平均工资 工资总额 f x xf 1600以下 40 1550 6200016001700 100 1650 16500017001800 200 1750 35000018001900 400 1850 74000019002000 450 1950 87500020002200 250 2100 525000 2200以上
6、60 2300 138000 合 计 1500 2855000数据的整理与抽样数据的整理与抽样 =2855000/1500=1903.33 元算术平均数的特点:各变量值与其算术平均数的离差之和等于 0,即 各变量值与其算术平均数的离差平方和为最小值(相对于其他任何数),即数据的整理与抽样数据的整理与抽样 例如,为分析某乡农民家庭生活水平与家庭人口的关系,则需按人均月收入对该乡农户分组。也可按户人口数分组。人均月收入(分组)调查户数 人口数 户均人口数 250以下 9 54 6.0 250300 9 49 5.4 300350 31 162 5.2 350400 96 403 4.2 40060
7、0 69 239 3.5 600以上 12 35 2.9 合 计 226 942 4.2数据的整理与抽样数据的整理与抽样 2、几何平均数 它是与算术平均数不同的另一种平均数,主要用于环比发展速度或比率均值的计算。简单几何平均数 这是在资料未分组情况下采用的一种计算方法。其中,是第 i 期的发展速度或比率。数据的整理与抽样数据的整理与抽样某企业“九五”期间产品销售额的年增长速度为因 ,所以可用对数计算几何平均数。年 份 1995 1996 1997 1998 1999 2000增长速度(%)27 18 23 16 25相对前一年(%)127 118 123 116 125相对1995(%)100
8、 127 149.9 184.3 213.8 267.3数据的整理与抽样数据的整理与抽样 加权几何平均数 在资料已经分组,每个变量值出现次数或比重不等时,应使用加权几何平均。即对数计算公式为数据的整理与抽样数据的整理与抽样 假设投资银行某项投资的年利率按复利计算,25年的年利率分配为:有1 年 3%,有4 年 4%,有 8 年 8%,有10 年10%,有 2 年15%,求平均年利率。(单利:)数据的整理与抽样数据的整理与抽样 3、中位数 将一组变量值按大小顺序排列,位于数列中间位置的变量值即为中位数。由于中位数居于数列正中,所以它可以作为代表一般水平和集中趋势的代表值。在标志变异度较大的情况下
9、,可避免极端数值(不稳健)的影响。单项变量数数列 中位数为 为中位数的位置。数据的整理与抽样数据的整理与抽样 例:某班级 28 名学生的应用统计学成绩如下:72 85 64 92 76 73 87 82 96 66 77 65 57 90 71 69 70 74 68 79 60 53 75 88 72 78 61 67 计算该班学生应用统计学成绩的中位数。解:N=28,Me=(N+1)/2=(28+1)/2=14.5 对成绩顺序排列后,X14=72,X15=73 数据的整理与抽样数据的整理与抽样 组距变量数列 确定中位数所在组 计算公式为 N/2 或 ,N 和 为总次数;计算中位数 下限公式
10、含有中位组均匀分布的假设。数据的整理与抽样数据的整理与抽样其中,L 中位数所在组的下组限;数值在 L 之下各组的累计次数;中位数所在组的次数;d 中位数所在组的组距。上限公式数据的整理与抽样数据的整理与抽样 例:成绩分组组中值 人数5060552110607065852070807511825809085434090100953285合计282080数据的整理与抽样数据的整理与抽样 解:N=28,L=70,Sm-1=10,=11,d=10显然,数据的整理与抽样数据的整理与抽样 例:年收入额(元)农户数 百分比(%)26002800 240 8 28003000 480 16 30003200
11、1050 35 32003400 600 20 34003600 270 9 36003800 210 7 38004000 120 4 42004400 30 1 合 计 3000 100数据的整理与抽样数据的整理与抽样 解:N=3000,L=3000,Sm-1=720,=1050,d=200显然,数据的整理与抽样数据的整理与抽样 4、四分位数 四分位数是将数据排序后,将数据四等分的三个数值,其中中间的数值是中位数。在中位数与最大值和中位数与最小值之间再找到两个数值,即可将数据四等分。四分位数的三个分割点的位置分别为数据的整理与抽样数据的整理与抽样 上四分位数 若上四分位数为 Xi,则 下四
12、分位数 若下四分位数为 Xj,则其中,表示向上取整。数据的整理与抽样数据的整理与抽样 在资料分组的情况下,四分位值的三个点分别以 N/4、2N/4 和 3N/4 定位,之后求3个四分位数。第 i 个四分位点的值为其中,第 i 个分位值所在组的下限;其前各组的累计次数;其所在组的次数;其所在组的组距。数据的整理与抽样数据的整理与抽样 5、众数 众数是将数据按大小顺序排队后,出现次数明显最多或最有明显集中趋势的点的数值。它是指在总体中最常遇到的现象,即在一个数列中出现最多的标志值。例如,大多数工人可完成的工作量、大多数人的收入、最一般的身高等。它不受变量数列极值的影响,用具有次数最多的标志值描述集
13、中趋势,代表的范围最广。但是,众数的取得必须在个体数足够多且又有明显集中趋势时才有意义。数据的整理与抽样数据的整理与抽样 如果分布没有明显的最高点,则众数不存在。如果有两个相同的最高点,也可有两个众数。M0M0M0M0数据的整理与抽样数据的整理与抽样众数的确定方法 若为单项变量数列,则变量出现次数最多(频率最高)的变量值就是众数。日班次平均加工零件数量(个)x 工人数(人)f 50 20 55 30 60 80 65 10 70 5 合计 145数据的整理与抽样数据的整理与抽样 若为等组距变量数列,则分两步:年收入额(元)农户数 百分比(%)26002800 240 8 28003000 48
14、0 16 30003200 1050 35 32003400 600 20 34003600 270 9 36003800 210 7 38004000 120 4 42004400 30 1 合 计 3000 100数据的整理与抽样数据的整理与抽样 确定众数组 频次最高的一组为众数组。30003200元之间;计算众数 与众数组相邻的两组数频次的多少有关:若相邻两组数的频次相等,则众数组的中值就是众数;数据的整理与抽样数据的整理与抽样 若相邻两组数的频次不等,则众数为其中:L 众数组的下限值;众数组与其下限相邻组的频次差;众数组与其上限相邻组的频次差;d 众数组的组距。(下限公式)数据的整理与
15、抽样数据的整理与抽样 在本例中,L=3000 d=3200-3000=200 =1050-480=570 或 =35%-16%=19%=1050-600=450 或 =35%-20%=15%则或 上限公式为数据的整理与抽样数据的整理与抽样 例:计算全班学生应用统计学的众数。成绩分组 人数506026070870801180904901003合计28数据的整理与抽样数据的整理与抽样 解:L=70,d=10 数据的整理与抽样数据的整理与抽样 在度量集中趋势的几种均值指标中,算术平均数、中位数、众数最为重要。三者之间存在如下关系:当次数分布完全对称时,当次数分布为偏态时,数据的整理与抽样数据的整理与
16、抽样 6、集中趋势分析应注意的几个问题 只有同质总体才能计算平均值,各个体之间仅存在数量差异;在分组的条件下,总体的均值不仅受组的均值大小的影响,同时还受总体内部结构变动的影响。当总体内部结构变化时,总体均值就不能全面、准确地反映现象的特征和规律;数据的整理与抽样数据的整理与抽样 应以分布数量和典型事例作补充说明总体的集中趋势;应与离散趋势分析相结合,以全面反映现象个体的差异。数据的整理与抽样数据的整理与抽样二、离散趋势 1、问题的提出 集中趋势反映了总体单位(个体)标志值分布特征的一个重要方面,但仅用此指标描述这些标志的一般水平是不够的。要全面描述总体单位标志值的分布特征,必须对标志值的差异
17、性进行研究。离中趋势是指一组变量值背离分布中心值的特征,它与集中趋势共同说明总体的分布特征。数据的整理与抽样数据的整理与抽样 2、离中趋势度量的目的 描述总体内部差异程度,反映社会经济活动的均衡性,为管理决策提供信息。班级 语文 数学 历史 地理 化学 物理 总评甲班 82 86 80 83 83 84 83乙班 75 89 84 78 80 92 83数据的整理与抽样数据的整理与抽样 衡量和比较均值指标代表性的高低 离中趋势指标数值的大小和均值代表程度高低有密切关系。离中趋势指标数值越大,均值的代表性就越小;而离中趋势指标数值越小,均值的代表性就越大。这充分说明,均值代表性的大小必须与离中趋
18、势指标结合运用。数据的整理与抽样数据的整理与抽样 为选取样本单位数提供依据。各个体标志值变异度越小,即总体越一致,则为获取代表性资料,只需选取较少的样本单位;反之,就需要选取较多的样本单位。数据的整理与抽样数据的整理与抽样 3、离中趋势度量方法 按总体内单位标志值差异距离度量。如极差、四分位差等;按异众比例度量;按个体标志值的平均离差度量。如平均差、标准差等。离中趋势的度量由变异指标给出,它可以是绝对数,也可以是相对数。数据的整理与抽样数据的整理与抽样 4、极差 极差又称为全距,是数据离散或差异程度的最简单的测度值。全距的计算是数据的最大值与最小值之差。即或数据的整理与抽样数据的整理与抽样 例
19、:计算全班学生应用统计学成绩的极差。解:显然,数据越分散,则极差越大。极差易受极端数据的影响,而中间数据的变化对它无任何影响。数据的整理与抽样数据的整理与抽样 5、方差和标准差 方差 未分组数据 总体方差;样本方差;数据的整理与抽样数据的整理与抽样 称 n-1 为自由度。因为当样本 确定之后,样本 n 个数据中只有 n-1 个可以自由变动,即样本数据中只有 n-1 个误差的有用信息。另一种解释是,样本方差之所以要除以 n-1,是为保证样本方差 对总体方差 估计的无偏性。数据的整理与抽样数据的整理与抽样 分组数据 对于分组数据的方差,还要考虑各组的次数,即对其离差平方和加权。数据的整理与抽样数据
20、的整理与抽样 标准差、S 标准差就是方差的平方根。即数据的整理与抽样数据的整理与抽样 方差与标准差的关系 方差与标准差的差异在于对离差的处理不同。方差不仅便于数学上进一步计算,而且其统计推断的性质也优于标准差;方差与标准差都是以均值为比较中心,它们都是离差的某种平均;方差的大小不仅可以反映数据离散程度的大小,而且也反映均值代表性的高低。方差小,则均值的代表性强;方差大,则均值的代表性弱。数据的整理与抽样数据的整理与抽样 例:甲 组 乙 组生产件数 离 差 离差平方 生产件数 离 差 离差平方 x x 73 -2 4 5329 50 -25 625 2500 74 -1 1 5476 65 -1
21、0 100 4225 75 0 0 5625 70 -5 25 4900 76 1 1 5776 90 15 225 8100 77 2 4 5929 100 25 625 10000 合计 10 28135 合计 1600 29725数据的整理与抽样数据的整理与抽样 例:计算全班学生应用统计学成绩的方差和标准差。数据的整理与抽样数据的整理与抽样 解:N=28,数据的整理与抽样数据的整理与抽样 例:用分组数据计算全班应用统计学成绩的方差和标准差。成绩分组组中值fi506055-18.64347.452694.90607065-8.6474.658597.207080751.361.851120
22、.3580908511.36129.054516.20901009521.36456.2531368.75合计283197.40数据的整理与抽样数据的整理与抽样 解:N=28,数据的整理与抽样数据的整理与抽样 利用前面的公式计算方差或标准差比较麻烦。常常利用它们的变形公式。数据的整理与抽样数据的整理与抽样 对于分组数据,有谢谢观看/欢迎下载BY FAITH I MEAN A VISION OF GOOD ONE CHERISHES AND THE ENTHUSIASM THAT PUSHES ONE TO SEEK ITS FULFILLMENT REGARDLESS OF OBSTACLES.BY FAITH I BY FAITH