《统计学数据的描述性分析解析.pptx》由会员分享,可在线阅读,更多相关《统计学数据的描述性分析解析.pptx(81页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、集中趋势集中趋势 集中趋势反映的是一组数据向某一中心值靠拢的倾向,在中心附近的数据数目较多,而远离中心的较少。对集中趋势进行描述就是寻找数据一般水平的中心值或代表值。第1页/共81页第2页/共81页1.1.数值平均数:是以统计数列的所有数据来计算的平均数.其特点是统计数列中任何一项数据的变动,都会在一定程度上影响数值平均数的计算结果.2.位置平均数:它不是对统计数列中所有数据进行计算所得的结果,而是根据数列中处于特殊位置上的个别单位或部分单位的标志值来确定的.第3页/共81页数值平均数包括算术平均数、调和平均数和几何平均数.1.算术平均数(均值,Arithmetic Mean)总体均值常用 或
2、 表示,样本均值常用 表示,样本均值 的计算公式:简单算术平均数:加权算术平均数:一、数值平均数第4页/共81页权数的意义和作用权数的意义和作用权数:各组次数(频数)的大小所对应的标志值对平均数的影响具有权衡轻重的作用.当各组的次数都相同时,即当 时:加权算术平均数就等于简单算术平均数.第5页/共81页例:计算某车间工人加工零件平均数(组距式数列)解:第6页/共81页 关于计算结果的说明关于计算结果的说明根据原始数据和分组资料计算的结果一般不会完全相等,根据分组数据只能得到近似结果.只有各组数据在组内呈对称或均匀分布时,根据分组资料 的计算结果才会与原始数据的计算结果一致.(1).各变量值与均
3、值的离差之和等于零.(2).各变量值与均值的离差平方和最小.第7页/共81页 算算术平均数的特点平均数的特点算算术平均数适合用代数方法运算,因此运用平均数适合用代数方法运算,因此运用比比较广泛;广泛;易受极端易受极端变量量值的影响,使的影响,使的代表性的代表性变小;小;受极大受极大值的影响大于受极小的影响大于受极小值的影响;的影响;当当组距数列距数列为开口开口组时,由于,由于组中中值不易确不易确定,使定,使的代表性也不很可靠的代表性也不很可靠;同同时要求各要求各单位位标志志值在在组内是均匀分布的,此内是均匀分布的,此时各各组的平均数正好的平均数正好等于它的等于它的组中中值。故用。故用组中中值计
4、算得出来的平均数只算得出来的平均数只能是一个近似能是一个近似值。第8页/共81页 调和平均数是各个和平均数是各个变量量值倒数的算倒数的算术平均数的倒数平均数的倒数。2、调和平均数和平均数(又称又称“倒数平均数倒数平均数”)第9页/共81页其其计算方法如下算方法如下:在加权的情况下:第10页/共81页在社会在社会经济统计学中学中经常用到的常用到的仅是一种特定是一种特定权数的加数的加权调和平均数。和平均数。即有以下数学关系式成立:即有以下数学关系式成立:m是一种特定是一种特定权数,它不是各数,它不是各组变量量值出出现的次的次数,而是各数,而是各组标志志值总量。量。第11页/共81页 调和平均数的特
5、点和平均数的特点如果数列中有一如果数列中有一标志志值等于零,等于零,则无法无法计算算;较之算之算术平均数,平均数,受极端受极端值的影响要小的影响要小。第12页/共81页例例.某蔬菜批发市场三种蔬菜日成交数据如下表,计算三种蔬菜该日的平均批发价格.第13页/共81页3.几何平均数(Geometric Mean),又称“对数平均数”是另一种形式的平均数,是n个标志值乘积的 n 次方根.主要用于计算平均比率和平均速度.(1)简单几何平均数式中G表示几何平均数,表示各项标志值.第14页/共81页(2)加权几何平均数第15页/共81页例 某企业四个车间流水作业生产某产品,一车间产品合格率99%,二车间为
6、95%,三车间为92%,四车间为90%,计算该企业的平均产品合格率.第16页/共81页 几几何平均数的特点何平均数的特点如果数列中有一个如果数列中有一个标志志值等于零或等于零或负值,就无法就无法计算算;受极端受极端值的影响的影响较和和小;小;它适用于反映特定它适用于反映特定现象的平均水平,即象的平均水平,即现象的象的总标志志值是各是各单位位标志志值的的连乘乘积。第17页/共81页注注:(1)(2)数值平均数主要适用于定量数据,而不适用于定性数据.(3)简单数值平均数适用于未分组的资料,加权数值平均数适用于分组的资料.第18页/共81页1.众数(Mode)一组数据中出现次数最多的变量值.主要特点
7、:不受极端值的影响.有的数据无众数或有多个众数.位置平均数第19页/共81页第20页/共81页M0M0M0M0M0若有两个次数相等的众数,若有两个次数相等的众数,则称复众数。称复众数。只只有有总体体单位数比位数比较多,而且又有明多,而且又有明显的集中的集中趋势时才存在众数。才存在众数。第21页/共81页下三下三图无众数:无众数:在在单位数很少,或位数很少,或单位数位数虽多但无明多但无明显集中集中趋势时,计算众数是没有意算众数是没有意义的。的。说明说明:如果所有数据出现的次数都一样如果所有数据出现的次数都一样,那么这组数据没那么这组数据没 有众数有众数.第22页/共81页众数主要用于分类数据,也
8、可用于顺序数据和数值型数据,对于未分组数据和单项式分组数据,众数位置确定之后便找到了众数.适用范围第23页/共81页例:分类数据的众数第24页/共81页例:顺序数据的众数第25页/共81页 根根据据单项数列确定众数数列确定众数;价格(元)销售数量(千克)2.00 202.40 603.001404.00 80合计300某种商品的价格情况众数M0=3.00(元)数数值型数据型数据众众数的数的计算方法算方法例例第26页/共81页 根根据据组距数列确定众数距数列确定众数()利利用比例插用比例插值法推算众数的近似法推算众数的近似值。()由由最多次数来确定众数所在最多次数来确定众数所在组;第27页/共8
9、1页按日产量分组(千克)工人人数(人)60以下10 60-7019 70-8050 80-9036 90-10027100-11014110以上 8表中70-80,即众数所在组。例例第28页/共81页计算众数的近似算众数的近似值:下限公式:上限公式:由下限公式,日产量众数由上限公式,日产量众数第29页/共81页 众众数的特点数的特点 众众数是一个位置平均数,它只考数是一个位置平均数,它只考虑总体分布中最体分布中最频繁出繁出现的的变量量值,而不,而不受各受各单位位标志志值的影响,从而增的影响,从而增强了了对变量数列一般水平的代表性。不受量数列一般水平的代表性。不受极端极端值和开口和开口组数列的影
10、响。数列的影响。众众数是一个不容易确定的平均指数是一个不容易确定的平均指标,当分布数,当分布数列没有明列没有明显的集中的集中趋势而而趋均匀分布均匀分布时,则无众无众数可言;当数可言;当变量数列是不等距分量数列是不等距分组时,众数的位,众数的位置也不好确定。置也不好确定。第30页/共81页2.中位数(Median)中位数是一组数据按一定顺序排列后,处于中间位置上的变量第31页/共81页第32页/共81页 由由未分未分组资料确定中位数料确定中位数数数值型数据型数据中中位数的位数的计算方法算方法第33页/共81页 n为奇数奇数时,则居于中居于中间位置的那个位置的那个标志志值就是中位数。就是中位数。例
11、例第34页/共81页 n为偶数偶数时,则中中间位置的两个位置的两个标志志值的算的算术平均数平均数为中位数。中位数。第35页/共81页 由由单项数列确定中位数数列确定中位数某企业按日产零件分组如下:按日产零件分组(件)工人数(人)较小制累计较大制累计26 3 3803110137732142767342754533618722641 880 8合计80-例例第36页/共81页 由由组距数列确定中位数距数列确定中位数 按日产量分组(千克)工人数(人)较小制累计较大制累计 50 60 10 10164 60 70 19 29154 70 80 50 79135 80 90 36115 85 9010
12、0 27142 49 100-110 14156 22 110以上 8164 8合计164-第37页/共81页下限公式下限公式(较小制累计时用):第38页/共81页上限公式上限公式(较大制累计时用):第39页/共81页 中中位数不受极端位数不受极端值及开口及开口组的影响,的影响,具有具有稳健性健性。各各单位位标志志值与中位数离差的与中位数离差的绝对值之和之和是个最小是个最小值。对某些不具有数学特点或不能用数字某些不具有数学特点或不能用数字测定的定的 现象,可用中位数求其一般水平。象,可用中位数求其一般水平。中中位数的特点位数的特点第40页/共81页负偏正偏注:(1)中位数总是介于众数和平均数之
13、间.第41页/共81页(2)皮尔逊经验法则分布在轻微偏斜的情况下,众数、中位数和算术平均数数量关系的经验公式为:第42页/共81页一组工人的月收入众数为700元,月收入的算术平均数为1000元,则月收入的中位数近似值是:例例根据卡尔皮尔逊经验公式,还可以推算出:第43页/共81页众数、中位数、平均数的特点和应用众数、中位数、平均数的特点和应用1.众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用2.中位数不受极端值影响数据分布偏斜程度较大时应用3.平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用第44页/共81页数值平均数与位置平均数的适用场合数值平均数与位置
14、平均数的适用场合?第45页/共81页60分以下260-70870-802280-901090分以上4案例案例1:甲班:甲班统计学统计学考试情况如下表:考试情况如下表:第46页/共81页案例案例2:乙班:乙班统计学统计学考试情况如下表:考试情况如下表:60分以下260-703070-80880-90490分以上1第47页/共81页案例案例3:丙班:丙班统计学统计学考试情况如下表:考试情况如下表:60分以下260-70570-801280-902590分以上7第48页/共81页问题1、计算甲、乙、丙三个班的平均成绩;该平均值是真实值还是近似值?如是近似值,、计算甲、乙、丙三个班的平均成绩;该平均值
15、是真实值还是近似值?如是近似值,什么情况下会是真实值?什么情况下会是真实值?2、计算甲、乙、丙三个班的中位数、众数;、计算甲、乙、丙三个班的中位数、众数;3、如要选择从算术平均数、中位数和众数三个平均数中选择一个数来分别代表甲、乙、如要选择从算术平均数、中位数和众数三个平均数中选择一个数来分别代表甲、乙、丙三个班的整体水平,请问你会选择哪个平均数?为什么?丙三个班的整体水平,请问你会选择哪个平均数?为什么?4、如要分别反映甲、乙、丙三个班的考试情况,你会选择用哪些指标来衡量?、如要分别反映甲、乙、丙三个班的考试情况,你会选择用哪些指标来衡量?5、如要比较甲、乙、丙三个班的考试情况的优劣,你又会
16、选择什么样的指标来衡量?、如要比较甲、乙、丙三个班的考试情况的优劣,你又会选择什么样的指标来衡量?6、甲乙丙、甲乙丙三个班的考试成绩分别服从对称分布、左三个班的考试成绩分别服从对称分布、左偏分布、右偏分布中的哪种分布?为什么?偏分布、右偏分布中的哪种分布?为什么?第49页/共81页离散程度的描述反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度.第50页/共81页第51页/共81页3.2.1 离散程度的常用指标异众比率式中,为变量值的总频数;为众数组的频数.异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差.第52页/共81页全距(极差)极
17、差(Range)也叫全距,是一组数据的最大值与最小值之差,即:组距分组数据可用最高组上限最低组下限最高组上限最低组下限计算.第53页/共81页四分位差四分位差(quartile deviation)也称内距或四分间距(inter-quartile range),是指第三四分位数和第一四分位数之差.四分位差的计算公式为:把所有数据由小到大排列并分成若干等份,处于分割点位置的数值就是分位数.第54页/共81页把所有数据由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数.分位数可以反映数据分布的相对位置(而不单单是中心位置).常用的有四分位数、十分位数、百分位数.四分位数(Quartil
18、e):Q1,Q2,Q3;十分位数(Decile):D1,D2,.,D9;百分位数(Percentile):P1,P2,.,P99;第55页/共81页四分位数的计算首先确定四分位数的位置,再找出对应位置的标志值即为四分位数.设样本容量为n,则如果各位置计算出来的结果恰好是整数,这时各位置上的标志值即为相应的四分位数;如果四分位数的位置不是整数,则四分位数为前后两个数的加权算术平均数.权数的大小取决于两个整数位置与四分位数位置距离的远近,距离越近,权数越大.在实际应用中,计算四分位数的方法并不统一(数据量大时这些方法差别不大),对于一组排序后的数据:第56页/共81页 SPSS中四分位数的位置分别
19、为 Excel中四分位数的位置分别为第57页/共81页练习:已知9个家庭的人均月收入数据试求这组数据的第一和第三四分位数.四分位差反映了中间50%数据的离散程度,数值越小说明中间数据越集中.第58页/共81页平均差(Mean deviation)平均差也称平均绝对偏差,总体所有单位的标志值与其平均数的离差绝对值的算术平均数.通常用 表示.未分组数据计算平均差的公式为:加权式(分组数据):平均差虽然能较好地区别出不同组数据的分散情况或程度,但它的缺点是绝对值不适合作进一步的数学分析.第59页/共81页标准差和方差(Standard deviation and Variance)方差方差是一组数据
20、中各数值与其算术平均数离差平方的平均数.标准差标准差是方差中的平方根.第60页/共81页 注:总体方差和样本方差的符号不同,计算公式也不一样.是反映定量数据离散程度的最常用的指标.第61页/共81页例.在某地区抽取的120家企业按利润额进行分组,结果如表3.1所示.表3.1 某地区120家企业的利润额分组计算120家企业利润额的均值和标准差.第62页/共81页第63页/共81页离散系数(Coefficient of variation)离散系数也称变异系数,是各变异指标与其算术平均数的比值.例如,将极差与其平均数对比,得到极差系数;将标准差与其平均数对比,得到标准差系数.最常用的变异系数是标准
21、差系数:标准差系数:标准差与其相应的均值之比,表示为百分数.第64页/共81页特点特点:1、反映了相对于均值的相对离散程度;2、可用于比较计量单位不同的数据的离散程度;3、计量单位相同时,如果两组数据的均值相差悬殊,离散系数比标准差更有意义.第65页/共81页例子.某管理局抽查了所属的8家企业,其产品销售数据如表3.2所示,试比较产品销售额和销售利润的离散程度.第66页/共81页销售额销售利润结论:计算结果表明,说明产品销售额的离散程度小于销售利润的离散程度.第67页/共81页 3.2.2 数据的标准化定义 标准化数值是变量值与其平均数的离差除以标准差后的值,也称为z分数分数或标准标准分数分数
22、.设标准化数值为z,则有:对于来自不同均值和标准差的个体的数据,往往不能直接对比.这就需要将它们转化为同一规格、尺度的数据后再比较.标准分数是对某一个值在一组数据中相对位置的度量对某一个值在一组数据中相对位置的度量.第68页/共81页例例3.2.1 假定某班学生先后两次进行了难度不同的大学英语综合考试,第一次考试成绩的均值和标准差分别为80分和10分,而第二次考试成绩的均值和标准差分别为70分和7分.张三第一、二次考试的成绩分别为92分和80分,那么全班相比较而言,他哪一次考试的成绩更好呢?解解:由于两次考试成绩的均值和标准差不同,每个学生两次 考试的成绩不宜直接比较.利用标准分数进行对比,计
23、算结果表明,第二次考试成绩更好些.第69页/共81页 对称分布中的 法则变量值落在 范围以外的情况极为少见.因此通常将落在区间 之外的数据称为离群点离群点(或异常数据异常数据).第70页/共81页分布形状的描述集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜程度以及分布的扁平程度等.偏态和峰度就是对这些分布特征的进一步描述.偏态和峰度是英国统计学家卡尔皮尔逊首先提出的.第71页/共81页 3.3.1 偏态(Skewness)及其测定如果次数分布是完全对称的,叫对称分布对称分布;如果次数分布不是完全对称的,就称为偏态分布偏态分布.第7
24、2页/共81页所谓偏度,就是指次数分布的非对称程度,用偏态系数来表示.计算公式式子中 称为偏态系数偏态系数.偏态系数有多种计算方法,在Excel软件中通常采用以下 公式:第73页/共81页当 时,左右完全对称,为正态分布正态分布;当 时为正偏正偏(或右偏);当 时为负偏负偏(或左偏).偏态系数 的数值一般在0与3之间,偏态系数越接近于0,分布的偏斜程度越小;偏态系数越接近于3,分布的偏斜程度越大.第74页/共81页 3.3.2 峰度(Kurtosis)及其测定峰度是指变量的集中程度和次数分布曲线的陡峭(或平 坦)的程度.在变量数列的分布特征中,常常以正态分布为标准,观察变量数列分布曲线顶峰的尖
25、平程度,统计上称之为峰度.计算公式式子中 称为峰度系数峰度系数.第75页/共81页正态分布的峰度系数等于0,当 时为尖峰分布尖峰分布,表示次数分布比正态分布更集中;当 时为平峰分布平峰分布,表示次数分布比正态分布更分散.第76页/共81页数据的描述性分析讨论题1、任何平均数都受变量数列中的极端值的影响。2、中位数把变量数列分成了两半,一半数值比他大,一半数值比他小。3、任何变量数列都存在众数。4、算术平均数、中位数和众数三者的数量关系说明什么样的变量分布特征?5、什么是众数?有什么特点?试举例说明其应用。6、极差越小说明数据的代表性越好,数据越稳定;第77页/共81页7、四分位差、平均差和标准
26、差衡量的是哪个平均指标的代表性?上述三个指标哪些优越?8、如果某同学在英语竞赛中的标准得分为2,并且知道1%为一等奖,5%为二等奖,10%为三等奖,则 则他()。A.获一等奖 B获二等奖C获三等奖 D无缘奖项9、想知道某班同学统计学考试成绩的稳定性,需要用哪些指标比较好?相比较某班同学统计学考试成绩和大学英语考试成绩的稳定性,用哪些指标比较好?第78页/共81页10、在某地区抽取的120家企业按利润额进行分组,结果如下表所示.计算120家企业利润额的均值和标准差.第79页/共81页11、某管理局抽查了所属的8家企业,其产品销售数据如下表所示,试比较产品销售额和销售利润的离散程度.12、假定某班学生先后两次进行了难度不同的大学英语综合考试,第一次考试成绩的均值和标准差分别为80分和10分,而第二次考试成绩的均值和标准差分别为70分和7分.张三第一、二次考试的成绩分别为92分和80分,那么全班相比较而言,他哪一次考试的成绩更好呢?第80页/共81页感谢您的观看!第81页/共81页