《某公司统计数据管理与财务知识分析整理fqko.pptx》由会员分享,可在线阅读,更多相关《某公司统计数据管理与财务知识分析整理fqko.pptx(34页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 第三章 数据整理-数据分组 统计数据的分组分组是将总体所有单位按一定的标准区分为若干部分分组的目的:概括数据,清晰条理如何分组?将具有共性的个体归入同一组将总体内部个体间的差异通过组别区分开来统计数据的分组 品质数列是按现象的性质、类别标志进行的分组。例如人口按性别和民族分组;时间数列按时间发生的先后顺序分组。例如我国解放后各年的人口数字;GDP 变量数列是按某一数量标志大小顺序进行的分组。例如某企业按工资收入的多少分组;空间数列是按不同地区标志进行的分组。例如人口按省、市、自治区分组;次数分配 数据观察值在各组中的个数称为次数,各组间的次数称为次数分配。次数分配描述了总体的结构和特征。例如
2、:某企业非熟练工人的周工资额(元)如何分组?变量次数分配的编制1、将原始资料顺序排序2、将各个数据按其数值大小归入相应的组内3、确定组数与组距4、确定组限 如果数据分布比较均匀、对称,即中间数值次数多,大小极端值次数少,考虑用以下公式来确定组数:组数1+3.322 log n组距(观察值中的最大数值观察值中的最小数值)/组数分组计算 组数1+3.322 log n=5.9(n=30)分6组 组距:每组区间的宽度(观察值中的最大数值 观察值中的最小数值)/组数=(128-84)/6=7.3分6 组,组距8排序:84,85,87,91,91,94,95,96,97,99,101,101,103,1
3、03,105,105,105,106,106,106,106,107,107,109,110,111,111,118,119,121,128分6 组,组距8 每周工资(元)人 数(个)各组人数占总人数百分比(%)8492 5 1792100 5 17100108 12 40108116 4 13116 124 3 10124132 1 3 合计 30 100结合实际数据一、比较计算组距值(7.3),组距为10比较好计算且方便,二、分组的组数相应从6减少为5。最小值为84,下限从80开 始,分5 组,组距10 每周工资(元)人数(个)各组人数占总人数百分比(%)8090 3 1090100 7
4、2310011013 43110 1205 171201302 7 合计 30 100分两组 工资收入次数分配表 工资收入分组 次数80105 13105-130 17合计 30反映不出观察值分布特征分组太细会出现什么问题?不等距分组 在不等距分组情况下,要比较各组次数或分析总体结构,要消除由组距不等造成的影响。为此需计算单位组距的次数,即频数密度。每组单位组距次数某组次数/该组组距不等距分组 人口按年龄分组人口数(万人)频数密度(万人)1岁以下 2 217岁 12.2 2.03718岁 24 2.181825岁 14.8 2.112555岁 34.2 1.1455岁以上 16.3 0.54合
5、计 103.5-组限分类重叠组限:“100200”,“200300”间断组限:“100199”,“200299”开口组:“100以下”,“500以上”应用范围:离散变量可采用间断组限,亦可采用重叠组限;连续变量应采用重叠组限;数据资料中若有极端值应采用开口组.注重叠组限计数时应遵循“上组限不包括在内原则。组中值的计算 组中值=(下限+上限)/2 若遇开口组的资料,其开口组的组限一般按其相邻组的组距计,例 某生产车间50名工人日加工零件数如下(单位:个)。试对数据进行组距分组。117108110112137122131118134114124125123127120129117126123128
6、1391221331191241071331341131151171261271201391301221231231281221181181271241251081121351211.将数据排序 107,108,108,110,112,112,113,114,115,117,117,117,118,118,118,119,120,120,121,122,122,122,122,123,123,123,123,124,124,124,125,125,126,126,127,127,127,128,128,129,130,131,133,133,134,134,135,137,139,1392.确
7、定组数及组距组数=1+3.322lg50=6.647组距=(139-107)/7=4.6 53.确定组限 最小值为107,以105为第一组下限。采用重叠组限.某车间50名工作日加工零件数分组表按零件数分组 频数(人)频率()105110110115115120120125125130130135135140358141064610162820128合计 50 100亦可采用间断组限 某车间50名工人日加工零件数分组表按零件数分组 频数(人)频率()105109110114115119120124125129130134135139358141064610162820128合计 50 100变量
8、次数分配的图示直方图:频数分配直方图、频率分配直方图次数多边形图茎叶图累积次数分配图:小于上组限的累积次数分配图、大于下组限的累积次数分配图。特例 洛伦茨曲线 直方图 以变量值为横坐标、次数为纵坐标,以矩形高度表示各组次数(频数)分配多少。如下图:频数分布直方图直方图 频率分布直方图次数多边形图 次数多边形图 还可将几种不同数据绘在同一多边形图上用于比较.如图:茎叶图 数据源:21,29,60,1,27,35,66,23,8,38,31,45,57,66,68,62,62,93,68,19,68,72,76,91,46,62,3,10,49,56,52,95 按大小排序后如下:1,3,8,10
9、,19,21,23,27,29,31,35,38,45,46,49,52,56,57,60,62,62,62,66,66,68,68,68,72,76,91,93,95 茎叶图茎 叶 次数0 1 3 8 31 0 9 22 1 3 7 9 43 1 5 8 34 5 6 9 35 2 6 7 36 0 2 2 2 6 6 8 8 8 97 2 6 28 09 1 3 5 5 4累计次数分配图 小于上组限的累积次数分配每周工资(元)上组限 组次数 小于上组限的累计次数(人)小于上组限的累积百分比(%)8090 90 3 3 1090100 100 7 10 33100110 110 13 23
10、77110 120 120 5 28 93120130 130 2 30 100 累计次数分配图 以变量值为横坐标、以累积计次数为纵坐标描点连接而成的图,如下图:累计次数分配图 大于下组限的累积次数分配每周工资(元)上组限 组次数 小于上组限的累计次数(人)小于上组限的累积百分比(%)8090 80 3 30 10090100 90 7 27 90100110 100 13 20 66110 120 110 5 7 23120130 120 2 2 7累计次数分配图 洛伦茨曲线 以人口百分比为横坐标、以累积收入百分比为纵坐标描点连接而成的图形,如图:基尼系数反映一国收入的平等程度。如上图 基尼系数 r=A/(A+B)r=0 绝对平等 r=1 绝对不平等 r越大越不平等,反之则越平等。