《管理数量方法与分析第一章数据分析课件.ppt》由会员分享,可在线阅读,更多相关《管理数量方法与分析第一章数据分析课件.ppt(64页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、管理数量方法与分析管理数量方法与分析第一章第一章第一章第一章 数据分析的基础数据分析的基础数据分析的基础数据分析的基础第一章 数据分析的基础1.1 数据分组与变量数列数据分组与变量数列1.2 分布中心的测度分布中心的测度1.3 离散程度的测度离散程度的测度1.4 偏度与峰度偏度与峰度1.5 两个变量之间的相关关系两个变量之间的相关关系1.1 数据分组与变量数列1.1.1 1.1.1 数据分组数据分组1.1.2 1.1.2 变量数列变量数列1.1.1 数据分组统计数据统计数据对现象进行测量的结对现象进行测量的结果果;不是指单个的数据,而是由多;不是指单个的数据,而是由多个数据构成的数据集个数据构
2、成的数据集;不仅仅是指;不仅仅是指数字,它可以是数字的,也可以是数字,它可以是数字的,也可以是文字的。文字的。统计数据的分类统计数据的分类按照计量的层按照计量的层次分为次分为 品质型数据与数值型数据。品质型数据与数值型数据。在这里主要讨论数值型数据。在这里主要讨论数值型数据。统计数据的分类统计数据的分类按计量层次按计量层次分分类类型型 数数据据顺顺序序型型数数据据数数值值型型数数据据按时间状况按时间状况截截面面的的数数据据时时序序的的数数据据按收集方法按收集方法观观察察的的数数据据试试验验的的数数据据统计数据的分类统计数据的分类(按计量尺度分按计量尺度分)1.1.1.1.分类数据分类数据分类数
3、据分类数据只能归于某一类别的非数字型数据只能归于某一类别的非数字型数据只能归于某一类别的非数字型数据只能归于某一类别的非数字型数据对事物进行分类的结果,数据表现为类别,用文字对事物进行分类的结果,数据表现为类别,用文字对事物进行分类的结果,数据表现为类别,用文字对事物进行分类的结果,数据表现为类别,用文字来表述来表述来表述来表述例如,人口按性别分为男、女两类,民族分为例如,人口按性别分为男、女两类,民族分为例如,人口按性别分为男、女两类,民族分为例如,人口按性别分为男、女两类,民族分为56565656类。类。类。类。2.2.2.2.顺序数据顺序数据顺序数据顺序数据只能归于某一有序类别的非数字型
4、数据只能归于某一有序类别的非数字型数据只能归于某一有序类别的非数字型数据只能归于某一有序类别的非数字型数据对事物类别顺序的测度,数据表现为类别,用文字对事物类别顺序的测度,数据表现为类别,用文字对事物类别顺序的测度,数据表现为类别,用文字对事物类别顺序的测度,数据表现为类别,用文字来表述来表述来表述来表述例如,产品分为一等品、二等品、三等品、次品等例如,产品分为一等品、二等品、三等品、次品等例如,产品分为一等品、二等品、三等品、次品等例如,产品分为一等品、二等品、三等品、次品等 3.3.3.3.数值型数据数值型数据数值型数据数值型数据按数字尺度测量的观察值按数字尺度测量的观察值按数字尺度测量的
5、观察值按数字尺度测量的观察值结果表现为具体的数值,对事物的精确测度结果表现为具体的数值,对事物的精确测度结果表现为具体的数值,对事物的精确测度结果表现为具体的数值,对事物的精确测度例如:身高为例如:身高为例如:身高为例如:身高为175cm175cm175cm175cm、168cm168cm168cm168cm、183cm183cm183cm183cm统计数据的分类统计数据的分类(按收集方法分按收集方法分)1.1.观测的数据观测的数据观测的数据观测的数据通过调查或观测而收集到的数据通过调查或观测而收集到的数据通过调查或观测而收集到的数据通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得
6、到的在没有对事物人为控制的条件下而得到的在没有对事物人为控制的条件下而得到的在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观有关社会经济现象的统计数据几乎都是观有关社会经济现象的统计数据几乎都是观有关社会经济现象的统计数据几乎都是观测数据测数据测数据测数据2.2.试验的数据试验的数据试验的数据试验的数据在试验中控制试验对象而收集到的数据在试验中控制试验对象而收集到的数据在试验中控制试验对象而收集到的数据在试验中控制试验对象而收集到的数据比如,对一种新药疗效的试验,对一种新比如,对一种新药疗效的试验,对一种新比如,对一种新药疗效的试验,对一种新比如,对一种新药疗效的试验,
7、对一种新的农作物品种的试验等的农作物品种的试验等的农作物品种的试验等的农作物品种的试验等自然科学领域的数据大多数都为试验数据自然科学领域的数据大多数都为试验数据自然科学领域的数据大多数都为试验数据自然科学领域的数据大多数都为试验数据统计数据的分类统计数据的分类(按时间状况分按时间状况分)1.1.截面数据截面数据截面数据截面数据在相同或近似相同的时间点上收集的数据在相同或近似相同的时间点上收集的数据在相同或近似相同的时间点上收集的数据在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况描述现象在某一时刻的变化情况描述现象在某一时刻的变化情况描述现象在某一时刻的变化情况2.2.时间序列
8、数据时间序列数据时间序列数据时间序列数据 (第三章讨论)第三章讨论)第三章讨论)第三章讨论)在不同时间上收集到的数据在不同时间上收集到的数据在不同时间上收集到的数据在不同时间上收集到的数据描述现象随时间变化的情况描述现象随时间变化的情况描述现象随时间变化的情况描述现象随时间变化的情况 P77 P77 P77 P77 表表表表3-13-13-13-13.3.混合数据混合数据混合数据混合数据数据中含有时间序列与截面数据成分的数据数据中含有时间序列与截面数据成分的数据数据中含有时间序列与截面数据成分的数据数据中含有时间序列与截面数据成分的数据描述现象随时间与空间变化的情况描述现象随时间与空间变化的情
9、况描述现象随时间与空间变化的情况描述现象随时间与空间变化的情况变量变量变量变量 说明现象某种特征的概念,可以取不同值的说明现象某种特征的概念,可以取不同值的说明现象某种特征的概念,可以取不同值的说明现象某种特征的概念,可以取不同值的量可变的数量标志就是变量。量可变的数量标志就是变量。量可变的数量标志就是变量。量可变的数量标志就是变量。如商品销售额、受教育程度、产品的质量等级等如商品销售额、受教育程度、产品的质量等级等如商品销售额、受教育程度、产品的质量等级等如商品销售额、受教育程度、产品的质量等级等变量的具体表现称为变量值,即数据变量可以分为变量的具体表现称为变量值,即数据变量可以分为变量的具
10、体表现称为变量值,即数据变量可以分为变量的具体表现称为变量值,即数据变量可以分为分类变量分类变量分类变量分类变量 说明事物类别的名称说明事物类别的名称说明事物类别的名称说明事物类别的名称顺序变量顺序变量顺序变量顺序变量 说明事物有序类别的名称说明事物有序类别的名称说明事物有序类别的名称说明事物有序类别的名称数值型变量数值型变量数值型变量数值型变量 说明事物数字特征的名称说明事物数字特征的名称说明事物数字特征的名称说明事物数字特征的名称 离散变量:取有限个值离散变量:取有限个值离散变量:取有限个值离散变量:取有限个值 连续变量:可以取无穷多个值连续变量:可以取无穷多个值连续变量:可以取无穷多个值
11、连续变量:可以取无穷多个值 变量也可分为确定性变量与随机变量变量也可分为确定性变量与随机变量变量也可分为确定性变量与随机变量变量也可分为确定性变量与随机变量 收集的统计数据往往是杂乱无章的,需收集的统计数据往往是杂乱无章的,需要进行整理,常用的方法是分组。要进行整理,常用的方法是分组。根据变量自身变动的特点和研究问题的需根据变量自身变动的特点和研究问题的需要,可以将变量的取值分组,以便更好的研究要,可以将变量的取值分组,以便更好的研究变量取值(数据)分布的特征与变动规律。变量取值(数据)分布的特征与变动规律。等距分组等距分组异距分组异距分组 单项式分组单项式分组单项式分组单项式分组 若变量是离
12、散型变量,变量取值若变量是离散型变量,变量取值若变量是离散型变量,变量取值若变量是离散型变量,变量取值的个数较少时,采取单项式分组。每一个变量值的个数较少时,采取单项式分组。每一个变量值的个数较少时,采取单项式分组。每一个变量值的个数较少时,采取单项式分组。每一个变量值为一组。为一组。为一组。为一组。见书见书见书见书P2P2P2P2表表表表1-11-11-11-1 组距分组组距分组 若变量是离散型变量或连续型变若变量是离散型变量或连续型变量,变量取值的个数较多时,采取组距分组量,变量取值的个数较多时,采取组距分组.将将变量值的一个区间作为一组变量值的一个区间作为一组。组距分组。组距分组需遵循需
13、遵循“不重不漏不重不漏”的原则的原则。见书见书P2P2表表1-21-2组距分组组距分组可采用等距分组可采用等距分组,也可采用不等距分组也可采用不等距分组1.1.2 1.1.2 变量数列变量数列变量数列变量数列-在在对变量值进行分组的基础上,将对变量值进行分组的基础上,将各组不同的变量值与其变量值出现的次数排列成各组不同的变量值与其变量值出现的次数排列成的数列称为变量数列的数列称为变量数列.分为单项式数列与组距数分为单项式数列与组距数列列.见书见书P2P2表表1-11-1,1-21-2。构成变量数列两要素构成变量数列两要素 组别、组别、频数频数或频率或频率频数频数 变量值在该组出现的次数变量值在
14、该组出现的次数.是一个绝对量是一个绝对量频率频率 变量值在该组出现的次数与变量值的总次变量值在该组出现的次数与变量值的总次数之比,称为比率也称频率数之比,称为比率也称频率.是一个相对量是一个相对量频数与频率在进行数据分析时起到权数的作用频数与频率在进行数据分析时起到权数的作用变量数列的编制变量数列的编制1.1.单项式变量数列的编制单项式变量数列的编制例例1.1.11.1.1 某市场调查公司在某个城市居民区某市场调查公司在某个城市居民区的的2020户居民户居民进行一项调查,调查项目是每套住宅的房间进行一项调查,调查项目是每套住宅的房间数,结果如下:数,结果如下:3 3 2 2 4 4 4 4 1
15、 1 6 6 3 3 6 6 6 6 6 6 5 5 7 7 5 5 2 2 7 7 5 5 4 4 6 6 8 8 4 4试根据上述资料对其原始数据按单项式数列进行编制试根据上述资料对其原始数据按单项式数列进行编制房间数房间数12345678频数频数12243521频率频率1/202/202/204/203/205/202/201/201)1)1)1)将将将将变变变变量量量量的的的的取取取取值值值值按按按按上上上上升升升升(下下下下降降降降)顺顺顺顺序序序序排排排排列列列列,找找找找出出出出最最最最大值大值大值大值maxmaxmaxmax,最小值最小值最小值最小值min.min.min.mi
16、n.2)2)确确定定组组数数:组组数数的的确确定定应应以以能能够够显显示示数数据据的的分布特征和规律为目的分布特征和规律为目的.2.2.组距数列的编制组距数列的编制 在在实实际际进进行行等等距距分分组组时时,可可以以按按 Sturges Sturges 提提出的经验公式来确定组数出的经验公式来确定组数m m说明说明若每组组距相等称等距分组若每组组距相等称等距分组,否则称为异距分组。否则称为异距分组。一个组的最大值一个组的最大值一个组的最小值一个组的最小值3 3 3 3)确定组距:)确定组距:)确定组距:)确定组距:组距组距组距组距是一个组的上限与下限之差是一个组的上限与下限之差是一个组的上限与
17、下限之差是一个组的上限与下限之差,可可可可根根根根据据据据全全全全部部部部数数数数据据据据的的的的最最最最大大大大值值值值和和和和最最最最小小小小值值值值及及及及所所所所分分分分的的的的组组组组数来确定数来确定数来确定数来确定,即即即即4 4)统计出各组的上限、下限、组中值、频数并编)统计出各组的上限、下限、组中值、频数并编制变量数列制变量数列.组距组距(最大值最大值 -最小值最小值)组数组数 下限与上限之间的中点值即组中值下限与上限之间的中点值即组中值=(=(上限上限+下限下限)/2)/2说明说明说明说明 按上述方法进行组距的计算按上述方法进行组距的计算按上述方法进行组距的计算按上述方法进行
18、组距的计算,会有一定的问题会有一定的问题会有一定的问题会有一定的问题,比比比比如各组上下限与组中值不是整数如各组上下限与组中值不是整数如各组上下限与组中值不是整数如各组上下限与组中值不是整数,为下面数据分析造成为下面数据分析造成为下面数据分析造成为下面数据分析造成麻烦麻烦麻烦麻烦,故可以适当调整故可以适当调整故可以适当调整故可以适当调整,使组距为整数使组距为整数使组距为整数使组距为整数,通常用通常用通常用通常用5 5 5 5或者或者或者或者10101010的的的的倍数作为组距等倍数作为组距等倍数作为组距等倍数作为组距等;各组的上下限尽量取整数。各组的上下限尽量取整数。各组的上下限尽量取整数。各
19、组的上下限尽量取整数。组限的表示方法组限的表示方法 若离散型变量若离散型变量,相邻两组中数值小的组相邻两组中数值小的组上限与数值大的组下限分别取相邻的两个整数;若是上限与数值大的组下限分别取相邻的两个整数;若是连续型变量或可取整数也可取小数的离散型变量连续型变量或可取整数也可取小数的离散型变量,相邻相邻两组中数值小的组上限与数值大的组下限用同一个值。两组中数值小的组上限与数值大的组下限用同一个值。但不违反互斥性原则但不违反互斥性原则.一般规定上限不包含在本组内,一般规定上限不包含在本组内,即即 ()。)。组中值的计算组中值的计算组中值的计算组中值的计算1.1.1.1.闭口组的组中值闭口组的组中
20、值闭口组的组中值闭口组的组中值=(下限(下限(下限(下限+上限)上限)上限)上限)/2/2/2/22.2.2.2.缺下限开口组的组中值缺下限开口组的组中值缺下限开口组的组中值缺下限开口组的组中值=上限值上限值上限值上限值-相邻组组距相邻组组距相邻组组距相邻组组距/2/2/2/23.3.3.3.缺上限开口组的组中值缺上限开口组的组中值缺上限开口组的组中值缺上限开口组的组中值=下限值下限值下限值下限值+相邻组组距相邻组组距相邻组组距相邻组组距/2/2/2/2例例1.1.21.1.2 书书P4 P4 例题例题1.11.1解解 将将6060位顾客的购物金额按从小到大的顺序排位顾客的购物金额按从小到大的
21、顺序排列列(略略)minmin=12.0,=12.0,maxmax=151.0 =151.0 n n=60,=60,利用利用SturgesSturges的的经验公式来确定组数经验公式来确定组数m m根据最大值、最小值与分组组数确定组距根据最大值、最小值与分组组数确定组距适当放大最大值或缩小最小值与分组组数使适当放大最大值或缩小最小值与分组组数使组距为组距为2020a a=10=10minmin=12,=12,将最大值将最大值151.0151.0归到最大组,此组归到最大组,此组是开口组即无上限。计算各组上下限、组中值。是开口组即无上限。计算各组上下限、组中值。再计算各组的频数与频率,编制变量数列
22、。再计算各组的频数与频率,编制变量数列。购物金额购物金额顾客数顾客数(频数频数)比率比率(频率频率)%组中值组中值1030711.72030501525.04050701220.0607090813.38090110915.010011013058.3120130以上以上46.7140合计合计60100例例1.1.3 1.1.3 某电脑公司某电脑公司20022002年前四个月各天的销售年前四个月各天的销售量数据量数据(单位单位:台台)。试试编制变量数列。编制变量数列。(等距分组等距分组)解解 将将120120天的电脑销售量按从小到大的顺序排天的电脑销售量按从小到大的顺序排列列(略略)minmi
23、n=141,=141,maxmax=237 =237 n n=120,=120,利用利用SturgesSturges的的经验公式来确定组数经验公式来确定组数m m根据最大值、最小值与分组组数确定组距根据最大值、最小值与分组组数确定组距适当放大最大值或缩小最小值与分组组数使适当放大最大值或缩小最小值与分组组数使组距为组距为1010。a a=140=140minmin=141,=141,b b=240=240maxmax=237.=237.计算各组计算各组上下限、组中值。再计算各组的频数与频率,编上下限、组中值。再计算各组的频数与频率,编制变量数列。制变量数列。说明说明说明说明 等距分组与不等距分
24、组在表现频数分布上等距分组与不等距分组在表现频数分布上等距分组与不等距分组在表现频数分布上等距分组与不等距分组在表现频数分布上的差异的差异的差异的差异1.1.等距分组等距分组等距分组等距分组各组频数的分布不受组距大小的影响各组频数的分布不受组距大小的影响各组频数的分布不受组距大小的影响各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征可直接根据绝对频数来观察频数分布的特征可直接根据绝对频数来观察频数分布的特征可直接根据绝对频数来观察频数分布的特征2.2.不等距分组不等距分组不等距分组不等距分组各组频数的分布受组距大小不同的影响各组频数的分布受组距大小不同的影响各组频数的分布
25、受组距大小不同的影响各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实各组绝对频数的多少不能反映频数分布的实各组绝对频数的多少不能反映频数分布的实各组绝对频数的多少不能反映频数分布的实际状况际状况际状况际状况需要用频数密度(频数密度需要用频数密度(频数密度需要用频数密度(频数密度需要用频数密度(频数密度=频数频数频数频数/组距)反组距)反组距)反组距)反映频数分布的实际状况映频数分布的实际状况映频数分布的实际状况映频数分布的实际状况累计频数与累计频率累计频数与累计频率1.1.累计频数累计频数(频率频率)分布数列分布数列累积频数累积频数 各各组组频数的逐级累频数的逐级累计计
26、累积频率累积频率 各各组组频率频率(比率比率)的逐级累的逐级累计计向下累向下累计频数计频数(频率频率)由变量值高的组向变量值由变量值高的组向变量值低的组依次累计频数低的组依次累计频数(频率频率)。常用此。常用此。累计频数与累计频率有累计频数与累计频率有向上与向下累向上与向下累计频数计频数(频率)频率)向向上上累累计频数计频数(频率频率)由变量值低的组向变量值由变量值低的组向变量值高的组依次累计频数高的组依次累计频数(频率频率)。例例1.1.41.1.4 续例题续例题1.11.1,编制累计频数频率分布表,编制累计频数频率分布表房间数房间数12345678频数频数12243521频率频率1/202
27、/202/204/203/205/20 2/201/20向下累计向下累计频数频数2019171511831向下累计向下累计频率频率20/2019/2017/2015/2011/208/20 3/201/20购物金额购物金额 顾客数顾客数(频数频数)比率比率(频率频率)%向下累计向下累计向上累计向上累计频数频数频率频率频数频数频率频率1030711.760100711.730501525.05388.32236.750701220.03863.33456.77090813.32643.3427090110915.01830.0518511013058.3915.05693.8130以上以上46.
28、746.760100合计合计60100 例例1.1.51.1.5 书书P7 P7 续例题续例题1.21.22.2.累计频数累计频数(频率频率)分布曲线分布曲线 累积频数累积频数与与累积频率累积频率可以用分布表表示,可以用分布表表示,也可以用图表示,即分布曲线。也可以用图表示,即分布曲线。累积分布曲线分为累积分布曲线分为向下累向下累计频数计频数(频率频率)分布分布图与图与向向上上累累计频数计频数(频率频率)分布图。分布图。横轴表示变量,纵轴表示累计频数与累计频率。横轴表示变量,纵轴表示累计频数与累计频率。见书见书P8 图图1-1 表示例题表示例题1.5的累计频数分布图的累计频数分布图.3.3.变
29、量数列的常用分布图变量数列的常用分布图 变量分布可以用频数频率分布表表示,也可变量分布可以用频数频率分布表表示,也可以用频数频率分布图表示。以用频数频率分布图表示。常用的分布图有常用的分布图有 柱形图、直方图、折线图柱形图、直方图、折线图(1 1)柱形图柱形图 横轴表示变量,纵轴表示频横轴表示变量,纵轴表示频数或频率。用顺序排列的柱状数或频率。用顺序排列的柱状(线段、长方形、线段、长方形、长方体长方体)的高低显示各组变量值的频数、频率的的高低显示各组变量值的频数、频率的大小。大小。见书见书P10 图图1-3 表示频数柱形分布图表示频数柱形分布图.(2)(2)直方图直方图 横轴表示变量,纵轴表示
30、各组频横轴表示变量,纵轴表示各组频数或频率,或各组频数密度、频率密度。用顺序数或频率,或各组频数密度、频率密度。用顺序排列的各区间上的直方条表示变量在各区间内取排列的各区间上的直方条表示变量在各区间内取值的频数、频率的大小的图形。值的频数、频率的大小的图形。常用于组距分组的频数、频率分布图。常用于组距分组的频数、频率分布图。频数密度频数密度=频数频数/组距组距 频率密度频率密度=频率频率/组距组距指各组距内单位区间上的频数与频率,两者常用于指各组距内单位区间上的频数与频率,两者常用于绘制异距分组的分布图。绘制异距分组的分布图。见书见书P11 图图1-4 表示频数直方图表示频数直方图.直方图与条
31、形图的区别直方图与条形图的区别直方图与条形图的区别直方图与条形图的区别1.1.1.1.条形图是用条形的长度条形图是用条形的长度条形图是用条形的长度条形图是用条形的长度(横置时横置时横置时横置时)表示各组频数表示各组频数表示各组频数表示各组频数的多少的多少的多少的多少,其宽度其宽度其宽度其宽度(表示组表示组表示组表示组)则是固定的。则是固定的。则是固定的。则是固定的。2.2.2.2.直方图是用面积表示各组频数的多少直方图是用面积表示各组频数的多少直方图是用面积表示各组频数的多少直方图是用面积表示各组频数的多少,矩形的矩形的矩形的矩形的高度表示每一组的频数或频率高度表示每一组的频数或频率高度表示每
32、一组的频数或频率高度表示每一组的频数或频率,宽度则表示各组宽度则表示各组宽度则表示各组宽度则表示各组的组距的组距的组距的组距,其高度与宽度均有意义。其高度与宽度均有意义。其高度与宽度均有意义。其高度与宽度均有意义。3.3.3.3.直方图的各矩形通常是连续排列直方图的各矩形通常是连续排列直方图的各矩形通常是连续排列直方图的各矩形通常是连续排列,条形图则是条形图则是条形图则是条形图则是分开排列分开排列分开排列分开排列4.4.4.4.条形图主要用于展示品质数据条形图主要用于展示品质数据条形图主要用于展示品质数据条形图主要用于展示品质数据,直方图则主要直方图则主要直方图则主要直方图则主要用于展示数值型
33、数据用于展示数值型数据用于展示数值型数据用于展示数值型数据续例题续例题续例题续例题1.1.31.1.31.1.31.1.3(直方图的绘制)(直方图的绘制)(直方图的绘制)(直方图的绘制)140 150210直方图下的面直方图下的面直方图下的面直方图下的面直方图下的面直方图下的面积之和等于积之和等于积之和等于积之和等于积之和等于积之和等于1 11某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图我我一一眼眼就就看看出出来来了了,销销售售量量在在170170180180之之间间的的天天数数最最多多!190 200180160 170频频
34、频频频频数数数数数数(天天天天天天)25201510530220 230 240 (3 3)折线图折线图也称频数多边形图也称频数多边形图 具体的做法具体的做法 是在直方图的基础上是在直方图的基础上,把直方图把直方图顶部的中点顶部的中点(组中值组中值)用直线连接起来用直线连接起来;第一个矩第一个矩形的顶部中点通过竖边中点形的顶部中点通过竖边中点(即该组频数一半的位即该组频数一半的位置置)连接到横轴连接到横轴,最后一个矩形顶部中点与其竖边最后一个矩形顶部中点与其竖边中点连接到横轴中点连接到横轴,折线图的两个终点要与横轴相折线图的两个终点要与横轴相交交,再把原来的直方图抹掉再把原来的直方图抹掉。折线
35、图下所围成的面积与直方图的面积相等,折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的二者所表示的频数分布是一致的。与直方图类似用于组距分组的频数、频率分与直方图类似用于组距分组的频数、频率分布图。常用的是纵轴为频率密度的折线图。布图。常用的是纵轴为频率密度的折线图。见书见书P12 图图1-5 表示频数折线图。表示频数折线图。折线图与直方图折线图与直方图折线图与直方图折线图与直方图下的面积相等!下的面积相等!下的面积相等!下的面积相等!140 150210某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图190200180160 170220 230240频频频频数数数
36、数(天天天天)25201510530续例题续例题1.1.3(直方图的绘制)(直方图的绘制)4.4.洛伦兹曲线洛伦兹曲线 洛伦兹曲线洛伦兹曲线为了研究国民收入在国民之间为了研究国民收入在国民之间的分配问题的分配问题,美国统计学家美国统计学家M.O.M.O.洛伦兹(洛伦兹(Max Otto Max Otto LorenzLorenz,1901905 5年提出的年提出的。洛伦兹曲线用以比较和分析一个国家在不同洛伦兹曲线用以比较和分析一个国家在不同时代或者不同国家在同一时代的财富不平等时代或者不同国家在同一时代的财富不平等,该曲该曲线作为一个总结收入和财富分配信息的便利的图线作为一个总结收入和财富分配
37、信息的便利的图形方法得到广泛应用。形方法得到广泛应用。它先将一国它先将一国(地区)(地区)人口按收入由低到高排人口按收入由低到高排队队,然后考虑收入最低的任意百分比人口所得到然后考虑收入最低的任意百分比人口所得到的收入百分比的收入百分比。将这样的人口累计百分比和收入将这样的人口累计百分比和收入累计百分比的对应关系描绘在图形上累计百分比的对应关系描绘在图形上,即得到洛即得到洛伦兹曲线。伦兹曲线。横轴横轴OHOH表示人口表示人口(按收入由低到高分组按收入由低到高分组)的累的累积百分比积百分比,纵轴纵轴OMOM表示收入的累积百分比表示收入的累积百分比,弧线弧线OLOL为洛伦兹曲线。为洛伦兹曲线。洛伦
38、兹曲线的弯曲程度反映了收入分配的洛伦兹曲线的弯曲程度反映了收入分配的不平等程度。弯曲程度越大不平等程度。弯曲程度越大,收入分配越不平等;收入分配越不平等;反之亦然。反之亦然。洛伦仑兹曲线的一般形式如图中这样向横轴洛伦仑兹曲线的一般形式如图中这样向横轴突出的弧线突出的弧线OLOL,尽管突出的程度有所不同。将洛,尽管突出的程度有所不同。将洛伦兹曲线与伦兹曲线与4545度线之间的部分度线之间的部分A A叫做叫做“不平等面不平等面积积”。将将社会社会总总财富财富(收入)收入)分为五等份分为五等份,每一等分为每一等分为2020%的社会总财富的社会总财富(收入);(收入);将将100100的家庭从最贫者到
39、最富者的家庭从最贫者到最富者至左向右排列,也分为至左向右排列,也分为5 5等分等分,第一个等份代表收入最低第一个等份代表收入最低的的2020的家庭的家庭。在这个矩形中,将每一百分的家庭所有拥在这个矩形中,将每一百分的家庭所有拥有的财富的百分比累计起来,并有的财富的百分比累计起来,并将相应的点画在图中将相应的点画在图中,便便得到了一条曲线就是洛伦兹曲线得到了一条曲线就是洛伦兹曲线.洛伦兹曲线是累计频数、频率分布曲线洛伦兹曲线是累计频数、频率分布曲线 例例1.1.51.1.5 见书见书P8 P8 例题例题1.31.31 1.2 2 分布中心的测度分布中心的测度 1.2.1 1.2.1 1.2.1
40、1.2.1 分布中心的概念分布中心的概念分布中心的概念分布中心的概念1.2.2 1.2.2 分布中心的测度指标与计算方法分布中心的测度指标与计算方法1.2.3 1.2.3 算术平均数、中位数、众数三者关系算术平均数、中位数、众数三者关系1.2.1 1.2.1 分布中心的概念分布中心的概念 一一个个变变量量数数列列不不仅仅能能够够显显示示其其在在不不同同取取值值时时出出现现次次数数的的多多少少,而而且且可可以以概概括括地地反反映映其其在在取取值值整整体体上上的的分分布布状状况况,但但现现实实中中往往往往借借助助于于一一些些分分布布特特征征以以反反映映变变量量的的分分布布在在状状况况,如如分分布中
41、心、离散程度、偏度与散度等。布中心、离散程度、偏度与散度等。分布中心分布中心 距离变量的所有取值最近的距离变量的所有取值最近的“位置位置”分布中心是变量取值的一个代表,反映其取分布中心是变量取值的一个代表,反映其取值的一般水平,平均水平。揭示变量取值的频数值的一般水平,平均水平。揭示变量取值的频数分布的集中位置,反映变量分布密度曲线的中心分布的集中位置,反映变量分布密度曲线的中心位置,即对称中心或尖峰位置。位置,即对称中心或尖峰位置。描述分布中心的方式描述分布中心的方式 一种是从位置角度一种是从位置角度,另一另一种是数值角度。种是数值角度。位置平均数主要有中位数、众数位置平均数主要有中位数、众
42、数数值平均数主要有算术平均数、几何平均数、调数值平均数主要有算术平均数、几何平均数、调和平均数和平均数 .主要介绍算术平均数主要介绍算术平均数.1.2.2 1.2.2 分布中心的测度指标与计算方法分布中心的测度指标与计算方法1.1.算术平均数算术平均数也称均值,变量所有取值之和与变量值个数的比也称均值,变量所有取值之和与变量值个数的比值,是测度变量分布中心最常用的指标。值,是测度变量分布中心最常用的指标。算术平均数的计算方法算术平均数的计算方法 根据资料的不同有简根据资料的不同有简单算术平均数与加权算术平均数。单算术平均数与加权算术平均数。(1)简单算术平均数简单算术平均数 设变量取值设变量取
43、值x1,x2,xn,则计算公式为,则计算公式为 例例2.2.12.2.1 见书见书P13 P13 例题例题1.41.4 (2 2)加权算术平均数加权算术平均数如果资料是分组整理的变量数列,需使用加权算如果资料是分组整理的变量数列,需使用加权算术平均的方法。术平均的方法。(a a)单项式数列单项式数列 设变量设变量x x取值分别为取值分别为x x1 1,x x2 2,x xn n的频数分别是的频数分别是f f1 1,f f2 2,f fn n,则计算公式为,则计算公式为 例例2.2.22.2.2 见书见书P14 P14 例题例题5,5,例题例题6 6 说明说明 书例书例题题5 5 从权数(频数)
44、角度计算从权数(频数)角度计算平均数;例题平均数;例题6 6从权重(比率、频率)角度计算从权重(比率、频率)角度计算平均数,两者计算的结果一致,但计算公式的形平均数,两者计算的结果一致,但计算公式的形式不同。式不同。(b b)组距数列组距数列 设变量设变量x x在各组的组中值分别为在各组的组中值分别为x x1 1,x x2 2,x xn n,相应的频数分别是,相应的频数分别是f f1 1,f f2 2,f fn n,则计算公式为,则计算公式为公式中的公式中的 x x1 1,x x2 2,x xn n是是各组的组中值,各组的组中值,而非变量的真正取值,故所计算的平均数是而非变量的真正取值,故所计
45、算的平均数是原始数据平均数的近似值。原始数据平均数的近似值。例例2.2.32.2.3 见书见书P15 P15 例题例题1.71.7 (3)(3)算术平均数需注意的问题算术平均数需注意的问题 (a a)容易受极端值的影响,为了避免此问题容易受极端值的影响,为了避免此问题常常去掉极端值,再计算平均数。常常去掉极端值,再计算平均数。(b b)计算加权平均数时,除了考虑变量值,计算加权平均数时,除了考虑变量值,还应该考虑每个变量值的权数。还应该考虑每个变量值的权数。(4)(4)算术平均数的性质算术平均数的性质 (a a)变量值与算术平均数的离差之和等于变量值与算术平均数的离差之和等于0 0,即,即 (
46、b b)变量值与算术平均数的离差平方之和最小。变量值与算术平均数的离差平方之和最小。(c c)变量线性变换的平均数等于变量平均数的线性变量线性变换的平均数等于变量平均数的线性变换变换.设设 y y=a+bx,a+bx,则则(d d)独立变量和的平均数等于变量平均数的和独立变量和的平均数等于变量平均数的和.设设 y y=x x1 1+x x2 2+x xn n,则则 (5)(5)调和平均数调和平均数设变量设变量x x取值分别为取值分别为x x1 1,x x2 2,x xn n的频数分别的频数分别是是f f1 1,f f2 2,f fn n,则加权调和平均数的计算,则加权调和平均数的计算公式为公式
47、为设变量取值设变量取值x x1 1,x x2 2,x xn n,则简单调和平均,则简单调和平均数的计算公式为数的计算公式为 例例2.2.42.2.4 见书见书P17 P17 例题例题1.81.82.2.中位数中位数位置平均数位置平均数 将变量值按照从小到大或从大到小的将变量值按照从小到大或从大到小的排序排序排排列,处于列,处于中间位置上的那个变量值中间位置上的那个变量值,用用MeMe表示表示.Me50%50%中位数不受极端值的影响。中位数不受极端值的影响。(1)(1)(1)(1)未分组数据的中位数未分组数据的中位数未分组数据的中位数未分组数据的中位数中位数的计算中位数的计算中位数的计算中位数的
48、计算 将将将将一一一一组组组组数数数数据据据据按按按按大大大大小小小小排排排排序序序序排排排排列列列列后后后后,处处处处于于于于数数数数列列列列的的的的中间位置上的变量值。中间位置上的变量值。中间位置上的变量值。中间位置上的变量值。计算方法计算方法计算方法计算方法 设有一组数据设有一组数据设有一组数据设有一组数据 x x x x1 1 1 1,x x x x2 2 2 2,x,x,x,xn n n n 将一组数据将一组数据将一组数据将一组数据x x x x1 1 1 1,x x x x2 2 2 2,x,x,x,xn n n n按大小顺序排列按大小顺序排列按大小顺序排列按大小顺序排列 确定中位
49、数的位置确定中位数的位置确定中位数的位置确定中位数的位置,求中位数求中位数求中位数求中位数.数据个数奇数数据个数奇数数据个数奇数数据个数奇数,则则则则中位数中位数中位数中位数MMe e为为为为 ,数据个数偶数数据个数偶数数据个数偶数数据个数偶数,则中位数则中位数则中位数则中位数MMe e为为为为例例2.2.5 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630排排排排 序序序序:750 780 850 96
50、0 1080 1250 1500 1630 2000750 780 850 960 1080 1250 1500 1630 2000位位位位 置置置置:1 2 3 4 1 2 3 4 5 5 6 7 8 9 6 7 8 9中位数中位数=1080(2 2 2 2)分组数据)分组数据)分组数据)分组数据 (a a)单单项项式式数数列列 计计算算向向上上累累计计频频数数或或向向下下累累计计频频数数,然然后后用用总总频频数数f f 除除以以2,2,以以确确定定中中位位数数所所在在的的组组的的位位置置;该该组组位位置置上上的的变变量量值值即即为为中中位数。位数。例例2.2.62.2.6 见书见书P19