《《应用统计学》PPT课件1.ppt》由会员分享,可在线阅读,更多相关《《应用统计学》PPT课件1.ppt(79页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、课程的重要性课程的重要性个人参与社会生活的需要 专业学习的需要总学时:54 学 分:3分 第一章第一章 绪论绪论 统计学的产生和发展统计学的产生和发展 统计数据与统计学统计数据与统计学 统计学的分科统计学的分科 统计学的基本概念统计学的基本概念学习内容学习内容学习目标学习目标理解统计学的含义理解统计学的含义理解统计学与统计数据理解统计学与统计数据的关系的关系了解统计学的分科了解统计学的分科了解统计学的发展过程了解统计学的发展过程一、统计学的产生与发展一、统计学的产生与发展统计:统计工作、统计数据、统计学统计:统计工作、统计数据、统计学古典统计学阶段(古典统计学阶段(1717世纪中叶世纪中叶19
2、19世纪初)世纪初)国势学派:使用记述、对比的方法研究国国势学派:使用记述、对比的方法研究国家基本国情家基本国情政治算术学派:使用数字、图表等统计方法,政治算术学派:使用数字、图表等统计方法,研究英国、法国、荷兰三国的国情、国力研究英国、法国、荷兰三国的国情、国力概率论学派:研究随机现象概率论学派:研究随机现象近代统计学阶段(近代统计学阶段(1919世纪初世纪初2020世纪初)世纪初)现代统计学阶段(现代统计学阶段(2020世纪初至今)世纪初至今)历史上著名的统计学家历史上著名的统计学家拉普拉斯拉普拉斯高斯高斯卡尔卡尔皮尔皮尔逊逊1749-18271749-18271857-19361857-
3、19361777-18551777-1855二、统计学与统计数据二、统计学与统计数据收集、整理、显示和分析收集、整理、显示和分析统计数据的科学,目统计数据的科学,目的是探索数据的内在的是探索数据的内在数量规律性数量规律性。数据搜集:取得数据数据搜集:取得数据数据表述:图表展示数据数据表述:图表展示数据数据分析:分析数据数据分析:分析数据数据解释:结果的说明数据解释:结果的说明研究过程研究过程解释数据解释数据收集数据收集数据整理数据整理数据分析数据分析数据统计规律统计规律三、统计学的分科三、统计学的分科统计方法统计方法描述统计描述统计推断统计推断统计参数估计参数估计假设检验假设检验1.1.使用方
4、法使用方法描述统计学(描述统计学(descriptive statisticsdescriptive statistics)研究数据收集、整理和描研究数据收集、整理和描述的统计学分支述的统计学分支 内容内容搜集数据搜集数据整理数据整理数据展示数据展示数据描述性分析描述性分析 目的目的描述数据特征描述数据特征找出数据的基本规律找出数据的基本规律 研究对象:确定性现象研究对象:确定性现象推断统计学(推断统计学(inferential statisticsinferential statistics)研究如何利用样本数研究如何利用样本数据来推断总体特征的据来推断总体特征的统计学分支统计学分支内容内容
5、参数参数估计估计假设检验假设检验目的目的对总体特征作出推断对总体特征作出推断 研究对象:不确定性现象研究对象:不确定性现象描述统计与推断统计的关系描述统计与推断统计的关系2.2.应用领域应用领域理论统计学与应用统计学理论统计学与应用统计学3.3.统计学与其他学科的关系统计学与其他学科的关系与数学的关系与数学的关系以数学为基础,但不同于数学以数学为基础,但不同于数学与专业课程的关系与专业课程的关系是专业课程的工具,通过使用可以帮助我们发是专业课程的工具,通过使用可以帮助我们发现研究领域所存在的规律,进一步结合专业知现研究领域所存在的规律,进一步结合专业知识对它进行阐释可以形成新的理论识对它进行阐
6、释可以形成新的理论数学:抽象数学:抽象 无量纲无量纲 演绎为主演绎为主 统计学:具体统计学:具体 有量纲有量纲 归纳与演绎归纳与演绎统计工作不是把数字随便填到几个格格里统计工作不是把数字随便填到几个格格里去,而应当是用数字来说明所研究的现象去,而应当是用数字来说明所研究的现象在实际生活中已经充分呈现出来和正在呈在实际生活中已经充分呈现出来和正在呈现出来的各种社会类型。现出来的各种社会类型。 -列宁全集列宁全集四、几个基本概念四、几个基本概念1. 1. 总体和样本总体和样本总体总体(population)所研究的全部个体的集合,其中的每一个个体称为总所研究的全部个体的集合,其中的每一个个体称为总
7、体单位体单位总体单位具有大量性、同质性、异质性总体单位具有大量性、同质性、异质性样本样本 (sample)从总体中抽取的一部分元素的集合从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量构成样本的元素的数目称为样本容量 2. 2. 标志和指标标志和指标说明总体单位属性和特征的名说明总体单位属性和特征的名称称品质标志:总体单位质的特征品质标志:总体单位质的特征数量标志:总体单位量的特征数量标志:总体单位量的特征姓名姓名 性别性别 年龄年龄 学历学历 工龄工龄 收入收入王小二王小二 男男 56 56 研究生研究生 28 3028 30万万标志名称标志名称标志值标志值企业名称企业名称 所
8、属行业所属行业 员工人数员工人数 年销售额年销售额 (变量)(变量)标志:标志:指标:综合反应总体数量特征的概念和数值指标:综合反应总体数量特征的概念和数值具有可量性和综合性具有可量性和综合性理论:指标名称、核算方法、计量单位理论:指标名称、核算方法、计量单位实践:时间、空间、数值实践:时间、空间、数值常用指标:总量指标常用指标:总量指标 相对指标相对指标 平均指标平均指标20142014年我国国内生产总值年我国国内生产总值568845568845亿元,按可比亿元,按可比价格计算,比上年增长价格计算,比上年增长7.7%7.7%。全年全国粮食总。全年全国粮食总产量达到产量达到6019460194
9、万吨,比上年增加万吨,比上年增加12361236万吨,增万吨,增长长2.1%2.1%。全年城镇居民人均总收入。全年城镇居民人均总收入2954729547元。其元。其中,城镇居民人均可支配收入中,城镇居民人均可支配收入2695526955元,比上年元,比上年名义增长名义增长9.7%9.7%,扣除价格因素实际增长,扣除价格因素实际增长7.0%7.0%。全年农村居民人均纯收入全年农村居民人均纯收入88968896元,比上年名义元,比上年名义增长增长12.4%12.4%,扣除价格因素实际增长,扣除价格因素实际增长9.3%9.3%。20132013年全国居民收入基尼系数为年全国居民收入基尼系数为0.47
10、3 0.473 。 总结:统计学总结:统计学数据的科学数据的科学设置科学的指标设置科学的指标获取真实的数据获取真实的数据运用科学的分析方法运用科学的分析方法第二章第二章 统计数据的描述统计数据的描述学习内容学习内容学习目标学习目标第一节第一节 数据的收集数据的收集一、直接渠道一、直接渠道1. 1. 普查(普查(censuscensus)为特定目的专门组织的全面调查为特定目的专门组织的全面调查通常是一次性或周期性的,非经常通常是一次性或周期性的,非经常一般需要规定统一的标准调查时间一般需要规定统一的标准调查时间数据的规范化程度较高数据的规范化程度较高应用范围比较狭窄应用范围比较狭窄统计调查是按照
11、预定的统计任务,运用科学的统计调查方法,有统计调查是按照预定的统计任务,运用科学的统计调查方法,有计划有组织地向客观实际搜集资料的全过程。计划有组织地向客观实际搜集资料的全过程。2. 2. 抽样调查(抽样调查(sampling surveysampling survey) 从总体中从总体中随机抽取随机抽取一部分单位作为样本进行调查,并一部分单位作为样本进行调查,并根据样本调查结果来根据样本调查结果来推断总体特征推断总体特征的数据收集方法的数据收集方法 特点:经济性、时效性、适应面广、准确性高特点:经济性、时效性、适应面广、准确性高3. 3. 统计报表统计报表按国家统一规定的表式,统一的指标项目
12、,统一的报送时按国家统一规定的表式,统一的指标项目,统一的报送时间,自下而上逐级定期提供基本统计资料的调查方法。间,自下而上逐级定期提供基本统计资料的调查方法。4. 4. 重点调查重点调查在所要调查的总体中选择一部分在所要调查的总体中选择一部分重点单位重点单位进行调查进行调查重点单位是着眼于现象量的方面,尽管这些单位在全重点单位是着眼于现象量的方面,尽管这些单位在全部单位中只占一部分,但是它们的某一主要标志的标部单位中只占一部分,但是它们的某一主要标志的标志总量在总体标志总量中有绝大比重。志总量在总体标志总量中有绝大比重。重点单位的选择着眼于它所研究现象主要标志总量的比重点单位的选择着眼于它所
13、研究现象主要标志总量的比重,因而它的选择重,因而它的选择不带有主观因素不带有主观因素。5. 5. 典型调查典型调查有意识地有意识地选取若干具有代表性的单位进行调查和研选取若干具有代表性的单位进行调查和研究,借以认识事物发展变化的规律。究,借以认识事物发展变化的规律。虽然抽样调查、重点调查、典型调查都属于非全面虽然抽样调查、重点调查、典型调查都属于非全面调查,但是只有调查,但是只有抽样调查可以用来推断总体的数量抽样调查可以用来推断总体的数量特征特征。重点调查和典型调查所得资料只能形成对总。重点调查和典型调查所得资料只能形成对总体的定性认识,不能上升为总体的定量结果。体的定性认识,不能上升为总体的
14、定量结果。解剖麻雀:总体内部个体间差异很小解剖麻雀:总体内部个体间差异很小划类选典:总体内部个体间差异较大划类选典:总体内部个体间差异较大二、间接渠道二、间接渠道统计部门和政府部门公布的有关资料,如各类统计部门和政府部门公布的有关资料,如各类统计年鉴统计年鉴各类专业期刊、报纸、书籍所提供的资料各类专业期刊、报纸、书籍所提供的资料各种会议,如博览会、展销会、交易会及专业各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料性、学术性研讨会上交流的有关资料从互联网或图书馆查阅到的相关资料从互联网或图书馆查阅到的相关资料 中国统计出版社中国政府及相关中国政府及相关机构机构 网址网址
15、数据内容数据内容国家统计局国家统计局http:/统计年鉴、统计统计年鉴、统计月报等月报等国务院发展研究国务院发展研究中心信息网中心信息网http:/宏观经济、财经、宏观经济、财经、货币金融等货币金融等 中国经济信息网中国经济信息网http:/经济信息及各类经济信息及各类网站网站华通数据中心华通数据中心http:/国家统计局授权国家统计局授权的数据中心的数据中心中国决策信息网中国决策信息网http:/决策知识及案例决策知识及案例三农数据网三农数据网http:/三农信息、论坛三农信息、论坛及相关网站及相关网站补充:文献检索补充:文献检索系统检索系统检索追溯检索追溯检索浏览检索浏览检索选取合适的数据
16、库和检索选取合适的数据库和检索的关键词的关键词Science Citation IndexScience Citation Index平时的积累平时的积累三、数据的误差三、数据的误差1. 1. 抽样误差抽样误差样本容量的大小样本容量的大小总体的变异性总体的变异性2. 2. 非抽样误差非抽样误差3. 3. 误差的控制误差的控制第二节第二节 数据的整理数据的整理一、数据的预处理一、数据的预处理逻辑审核逻辑审核计算检查计算检查保证数据的完整性和准确性保证数据的完整性和准确性二、统计分组二、统计分组根据统计研究的需要,将数据按照某个属性根据统计研究的需要,将数据按照某个属性分成不同的组别分成不同的组别
17、适用于品质标志分组适用于品质标志分组及数量标志分组中变量值较少时及数量标志分组中变量值较少时组距分组组距分组 (要点要点)将变量值的一个区间作为一组将变量值的一个区间作为一组适合于连续变量适合于连续变量适合于变量值较多的情况适合于变量值较多的情况需要遵循需要遵循“不重不漏不重不漏”的原则的原则可采用等距分组,也可采用不可采用等距分组,也可采用不等距分组等距分组组距分组(思路)组距分组(思路)先确定组数,再确定组距先确定组数,再确定组距先确定组距,再确定组数先确定组距,再确定组数组数越多,组距越小组数越多,组距越小最终分组结果需要反应出总体内各单位最终分组结果需要反应出总体内各单位的实际分布特征
18、的实际分布特征例:例:66 69 74 76 78 80 82 84 88 8966 69 74 76 78 80 82 84 88 89组距分组组距分组(几个概念几个概念) 下限下限(low limit) :一个组的最小值:一个组的最小值 上限上限(upper limit) :一个组的最大值:一个组的最大值 组距组距(class width) :上限与下限之差:上限与下限之差 组中值组中值(class midpoint) :下限与上限之间的中点值:下限与上限之间的中点值+=2下限 上限组中值频数分布表频数分布表3. 累积频数累积频数向上累积频数向上累积频数(以下累积)(以下累积)变量值由小到
19、大排列,表示某个变量变量值由小到大排列,表示某个变量值的位置,或者小于等于某个变量值值的位置,或者小于等于某个变量值的个数的个数向下累积频数向下累积频数(以上累积)(以上累积)变量值由大到小排列,表示某个变量变量值由大到小排列,表示某个变量值的位置,或者大于等于某个变量值值的位置,或者大于等于某个变量值的个数的个数例:例:P19 P19 表表2.92.9三、数据分布的图示和类型三、数据分布的图示和类型1. 1. 直方图直方图(histogram)(histogram)2. 2. 折线图折线图(frequency polygon)(frequency polygon)折线图也称频数多边形图折线图
20、也称频数多边形图是在直方图的基础上,把直方图顶部的中点是在直方图的基础上,把直方图顶部的中点(组中值组中值)用直线连用直线连接起来,再把原来的直方图抹掉接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的
21、示的频数分布是一致的次数分配的类型次数分配的类型四、洛伦茨曲线四、洛伦茨曲线描述收入和财富分配性质的描述收入和财富分配性质的曲线,分析该国家或地区分曲线,分析该国家或地区分配的平均程度配的平均程度20世纪初美国经济学家、统世纪初美国经济学家、统计学家洛伦茨计学家洛伦茨(M.E. Lorentz)根据意大利经济学根据意大利经济学家巴雷特家巴雷特(V. Pareto)提出的提出的收入分配公式绘制而成收入分配公式绘制而成ABAB一、众数(一、众数(modemode)无众数无众数原始数据原始数据: 10 5 9 12 6 8应用:市场中价格的确定应用:市场中价格的确定含义:最典型的,最普遍的含义:最典
22、型的,最普遍的二、中位数(二、中位数(medianmedian)排序后处于中间位置上的值排序后处于中间位置上的值不受极端值的影响不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能用于分类数据用于分类数据【例】【例】 9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排排 序序: 750 780 850 960 1080 1250 1500 1630 2000位位 置置: 1 2 3 4 5 6 7 8 9521921n位置【例】:【例】:10个家庭的
23、人均月收入数据个家庭的人均月收入数据排排 序序: 660 750 780 850 960 1080 1250 1500 1630 2000位位 置置: 1 2 3 4 5 6 7 8 9 10 5 . 5211021n位置102021080960eM其他位置平均数其他位置平均数四分位数四分位数(quartile)十分位数(十分位数(decile)D D1 1 D D2 2 D D3 3 D D9 9百分位数(百分位数(percentile)P P1 1 P P2 2 P P9999三、均值(三、均值(meanmean)样本样本总体总体12NXXXN12nxxxxn1 1、简单算术平均(、简单算
24、术平均(simple arithmetic meansimple arithmetic mean)2 2、加权算术平均、加权算术平均(weighted arithmetic meanweighted arithmetic mean)112212iiNNNiX FX FX FX FFFFF1 12212iinnnix fx fx fx fxffff总体总体样本样本1949.7()20件3110=103.6730(件)变形公式变形公式=XFFXXWFF()0 xx变量值变量值权重权重性质性质各变量值与均值的离差之和等于零各变量值与均值的离差之和等于零2()minxx四、几何平均四、几何平均(geo
25、metric meangeometric mean)12nnnGxxxx适用条件适用条件变量值以相对数的形式出现变量值以相对数的形式出现且变量值相乘有意义且变量值相乘有意义应用应用计算平均发展速度计算平均发展速度平均收益率平均收益率流水线的产品合格率流水线的产品合格率某产品要经过生产流水线连续作业的四道工序才能某产品要经过生产流水线连续作业的四道工序才能完成。某月份各工序产品的合格率分别为完成。某月份各工序产品的合格率分别为98%98%、95%95%、95%95%、97%97%,计算整个流水线产品合格率?,计算整个流水线产品合格率?498% 95% 95% 97%96.24%某银行为鼓励用户长
26、期存款,以复利方式计息,某某银行为鼓励用户长期存款,以复利方式计息,某1010年期存款的年利率第年期存款的年利率第1414年为年为3%3%、第、第5757年年为年年为4.5%4.5%、第、第810810年为年为5.5%5.5%。则。则1010年的平均年利率?年的平均年利率?104331.031.0451.0551.0419平均年利率为平均年利率为4.19%4.19%五、众数、中位数、均值的比较五、众数、中位数、均值的比较1 1、数量关系、数量关系2 2、众数、中位数、均值的特点和应用、众数、中位数、均值的特点和应用众数众数不受极值的影响不受极值的影响易于理解,最典型的,尤其适易于理解,最典型的
27、,尤其适用于类型变量用于类型变量不唯一不唯一中位数中位数不受极值的影响不受极值的影响数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用均值均值数学性质稳定数学性质稳定易受极值影响易受极值影响数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用前三季度,全国农村居民人均现金收入前三季度,全国农村居民人均现金收入85278527元,同比名元,同比名义增长义增长11.8%11.8%,扣除价格因素实际增长,扣除价格因素实际增长9.7%9.7%。全国城镇居。全国城镇居民人均可支配收入民人均可支配收入2204422044元,同比名义增长元,同比名义增长9.3%9.3%,扣除价,扣除价格因素实
28、际增长格因素实际增长6.9%6.9%。根据城乡一体化住户调查,前三。根据城乡一体化住户调查,前三季度全国居民人均可支配收入季度全国居民人均可支配收入1498614986元,同比名义增长元,同比名义增长10.5%10.5%,扣除价格因素实际增长,扣除价格因素实际增长8.2%8.2%。全国居民人均可支。全国居民人均可支配收入中位数配收入中位数1312013120元,同比名义增长元,同比名义增长12.1%12.1%。 20142014年三季度宏观经济数据年三季度宏观经济数据一、极差(一、极差(rangerange)二、内距(二、内距(Inter-Quartile Range, IQRInter-Qu
29、artile Range, IQR )三、方差和标准差三、方差和标准差(variance, standard deviationvariance, standard deviation)22()XN2()XFF22()XFF2()XN总体方差和标准差总体方差和标准差22()1xxSn2()1xxSn22()1xxfSf2()1xxfSf5x 23176.5105.8930105.8910.29()件变形公式:变形公式:222XN同随机变量的方差同随机变量的方差四、标准差的作用四、标准差的作用判断变量的离散程度判断变量的离散程度判断某一变量取值是否一致判断某一变量取值是否一致判断某一变量落在某一
30、区间的概率判断某一变量落在某一区间的概率切比雪夫定律:切比雪夫定律: k211k判断某一变量值在数据集合中的位置判断某一变量值在数据集合中的位置标准化值标准化值XZ五、离散系数五、离散系数 ( )例:甲乙两组工人加工零件数如下例:甲乙两组工人加工零件数如下60 65 70 75 8060 65 70 75 802 5 7 9 122 5 7 9 12甲组甲组乙组乙组707.0773.41vxsvs或或1536.25()x 万元1309.19()S 万元1309.190.577536.25V 232.52x (万元)223.09S (万元)123.090.71032.52V 一、偏态系数一、偏态
31、系数33()XSKN反映变量偏斜程度的指标反映变量偏斜程度的指标通常通常SKSK取值在取值在-3-3+3+3之间,绝对值越大,表明之间,绝对值越大,表明偏斜程度越大偏斜程度越大大于大于0 0为正偏(右偏),小于为正偏(右偏),小于0 0为负偏(左偏),等为负偏(左偏),等于于0 0为对称分布为对称分布二、峰度系数二、峰度系数是对数据分布平峰或尖峰程度的测度是对数据分布平峰或尖峰程度的测度44()3XKNK=0 K=0 正态分布正态分布K K0 0 尖峰分布尖峰分布K K0 0 平峰分布平峰分布一、统计表一、统计表表表2.11 某厂职工人数统计表某厂职工人数统计表2007年年12月月31日日性别
32、性别人数(人)人数(人)比率()比率()男男 女女25311568.7531.25表头表头行行标标题题列标题列标题数数字字资资料料合计合计 368 100.00 资料来源:资料来源:附加附加合理安排统计表的结构,合理安排统计表的结构,长方形长方形表格,长宽保持适当比例;表格,长宽保持适当比例;表头一般应包括表号、总标题和表中数据的性质;表头一般应包括表号、总标题和表中数据的性质;满足满足3W3W要求:数据的时间要求:数据的时间(when)(when)、地点(、地点(wherewhere)、何种数据)、何种数据(whatwhat)上下两端用上下两端用粗线粗线,表内用细线绘制,两端采用,表内用细线
33、绘制,两端采用开口式开口式;注解或资料来源注解或资料来源统计表的设计统计表的设计科学、实用、简练、美观科学、实用、简练、美观二、统计图二、统计图1.1.茎叶图(茎叶图()用于显示未分组的原始数据的分布用于显示未分组的原始数据的分布由由“茎茎”和和“叶叶”两部分构成,其图形是由数字组成两部分构成,其图形是由数字组成的的以该组数据的高位数值作树茎,低位数字作树叶以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留一位数字树叶上只保留一位数字茎叶图类似于横置的直方图,但又有区别茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出直方图可观察一组数据的分布状况,但没有给出具
34、体的数值具体的数值茎叶图既能给出数据的分布状况,又能给出每一茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息个原始数值,保留了原始数据的信息2 2、箱线图(、箱线图(box plotbox plot)箱线图的绘制方法箱线图的绘制方法11名学生各科的考试成绩数据名学生各科的考试成绩数据课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济学西方经济学市场营销学市场营销学财务管理财务管理基础会计学基础会计学统计学统计学计算机应用基础计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177Min-Max25%-75%Median value455565758595105英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础结束结束