《统计学数据的搜集整理与显示幻灯片.ppt》由会员分享,可在线阅读,更多相关《统计学数据的搜集整理与显示幻灯片.ppt(134页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学数据的搜集整理与显示第1页,共134页,编辑于2022年,星期二统计研究的过程收集数据收集数据(取得数据取得数据)整理数据整理数据(处理数据处理数据)解释数据解释数据(结果说明结果说明)分析数据分析数据(研究数据研究数据)实际问题实际问题第2页,共134页,编辑于2022年,星期二统计分析方法第3页,共134页,编辑于2022年,星期二描述统计(descriptive statistics)1.内容内容整理数据展示数据描述性分析2.目的目的描述数据特征找出数据的基本规律0 0 0252525505050Q1Q1Q1Q2Q2Q2Q3Q3Q3Q4Q4Q4¥x x=30 =30 s s2 22
2、=105=105第4页,共134页,编辑于2022年,星期二推断统计(inferential statistics)1.内容内容参数估计假设检验2.目的目的对总体特征作出推断样样本本总体总体第5页,共134页,编辑于2022年,星期二描述统计与推断统计的关系反映客观现反映客观现反映客观现反映客观现象的数据象的数据象的数据象的数据总体内在的总体内在的总体内在的总体内在的数量规律性数量规律性数量规律性数量规律性推断统计推断统计推断统计推断统计(利用样本信息和概率(利用样本信息和概率(利用样本信息和概率(利用样本信息和概率论对总体的数量特征进论对总体的数量特征进论对总体的数量特征进论对总体的数量特征
3、进行估计和检验等)行估计和检验等)行估计和检验等)行估计和检验等)概率论概率论概率论概率论(包括分布理论、大数定律(包括分布理论、大数定律(包括分布理论、大数定律(包括分布理论、大数定律和中心极限定理等)和中心极限定理等)和中心极限定理等)和中心极限定理等)描述统计描述统计描述统计描述统计(统计数据的搜集、整理、显(统计数据的搜集、整理、显(统计数据的搜集、整理、显(统计数据的搜集、整理、显示和分析等)示和分析等)示和分析等)示和分析等)总体数据总体数据样本数据样本数据第6页,共134页,编辑于2022年,星期二统计的应用领域统计学统计学经济学经济学管理学管理学医学医学工程学工程学社会学社会学
4、第7页,共134页,编辑于2022年,星期二统计数据的分类统计数据的分类统计数据的分类按计量层次按计量层次分分分分类类类类的的的的数数数数据据据据顺顺顺顺序序序序的的的的数数数数据据据据数数数数值值值值型型型型数数数数据据据据按时间状况按时间状况截截截截面面面面的的的的数数数数据据据据时时时时序序序序的的的的数数数数据据据据按收集方法按收集方法观观观观察察察察的的的的数数数数据据据据试试试试验验验验的的的的数数数数据据据据第8页,共134页,编辑于2022年,星期二统计数据的分类(按计量尺度分)1.分类数据分类数据(categorical data)对事物进行分类的结果数据表现为类别,用文字来
5、表述例如,人口按性别分为男、女两类 2.顺序数据顺序数据(rank data)对事物类别顺序的测度数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等 3.数值型数据数值型数据(metric data)对事物的精确测度结果表现为具体的数值例如:身高为175cm、168cm、183cm第9页,共134页,编辑于2022年,星期二统计数据的分类(按收集方法分)1.观测的数据观测的数据(observational data)通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观测数据2.试验的数据试验的数据(experimental
6、data)在试验中控制试验对象而收集到的数据比如,对一种新药疗效的试验,对一种新的农作物品种的试验等自然科学领域的数据大多数都为试验数据第10页,共134页,编辑于2022年,星期二统计数据的分类(按时间状况分)1.截面数据(cross-sectional data)在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况比如,2002年我国各地区的国内生产总值数据2.时间序列数据(time series data)在不同时间上收集到的数据描述现象随时间变化的情况比如,1996年至2002年国内生产总值数据第11页,共134页,编辑于2022年,星期二总体和样本1.总体总体(popul
7、ation)所研究的全部元素的集合,其中的每一个元素称为个体 分为有限总体和无限总体有限总体的范围能够明确确定,且元素的数目是有限的无限总体所包括的元素是无限的,不可数的2.样本样本(sample)从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量 第12页,共134页,编辑于2022年,星期二参数和统计量1.参数参数(parameter)研究者想要了解的总体的某种特征值所关心的参数主要有总体均值()、标准差()、总体比例()等总体参数通常用希腊字母表示 2.统计量统计量(statistic)根据样本数据计算出来的一个量 所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比
8、例(p)等样本统计量通常用小写英文字母来表示 第13页,共134页,编辑于2022年,星期二变 量(Variable)1.说明现象某种特征的概念如商品销售额、受教育程度、产品的质量等级等变量的具体表现称为变量值,即数据2.变量可以分为分类变量(categorical variable):说明事物类别的一个名称顺序变量(rank variable):说明事物有序类别的一个名称数值型变量(metric variable):说明事物数字特征的一个名称 离散变量:取有限个值 连续变量:可以取无穷多个值 第14页,共134页,编辑于2022年,星期二统计中的几个基本概念平均数平均数平均数平均数标准差标准
9、差标准差标准差比例比例比例比例参数参数 统计量统计量 x xs sp p 总体总体总体总体 样本样本样本样本第15页,共134页,编辑于2022年,星期二几种常用的统计软件(Software)典型的统计软件典型的统计软件SASSPSSMINITABSTATISTICAS-PLUSRExcel第16页,共134页,编辑于2022年,星期二第17页,共134页,编辑于2022年,星期二 1 数据的搜集1.1 数据的来源数据的来源1.2 调查数据调查数据1.3 实验数据实验数据1.4 数据的误差数据的误差1.5 数据文件数据文件第18页,共134页,编辑于2022年,星期二学习目标1.数据的来源数据
10、的来源2.搜集数据的调查方法搜集数据的调查方法3.问卷设计问卷设计4.搜集数据的实验方法搜集数据的实验方法5.数据的误差数据的误差6.数据的质量要求数据的质量要求第19页,共134页,编辑于2022年,星期二系统外部的数据1.统计部门和政府部门公布的有关资料,如各类统计年鉴2.各类经济信息中心、信息咨询机构、专业调查机构等提供的数据3.各类专业期刊、报纸、书籍所提供的资料4.各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料5.从互联网或图书馆查阅到的相关资料 数据的间接来源1.1 数据的来源数据的来源第20页,共134页,编辑于2022年,星期二系统内部的数据1.业务资
11、料,如与业务经营活动有关的各种单据,记录2.经营活动过程中的各种统计报表3.各种财务,会计核算和分析资料等第21页,共134页,编辑于2022年,星期二二手数据的特点1.搜集容易,采集成本低2.作用广泛分析所要研究的问题提供研究问题的背景帮助研究者更好地定义问题检验和回答某些疑问和假设寻找研究问题的思路和途径3.搜集二手资料在研究中应优先考虑第22页,共134页,编辑于2022年,星期二二手数据的评估1.数据是谁搜集的?可信度评估2.为什么目的而搜集的?3.数据是怎样搜集的?4.什么时候搜集的?第23页,共134页,编辑于2022年,星期二数据的直接来源(原始数据)1.调查数据通过调查方法获得
12、的数据通常是对社会现象而言通常取自有限总体 2.实验数据通过实验方法得到的数据通常是对自然现象而言 也被广泛运用到社会科学中如心理学、教育学、社会学、经济学、管理学等 第24页,共134页,编辑于2022年,星期二抽样方法抽抽样方式方式概率抽概率抽样非概率抽非概率抽样简单随机抽样简单随机抽样分层抽样分层抽样整群抽样整群抽样系统抽样系统抽样多阶段抽样多阶段抽样方便抽样方便抽样判断抽样判断抽样自愿样本自愿样本滚雪球抽样滚雪球抽样配额抽样配额抽样1.2 调查数据第25页,共134页,编辑于2022年,星期二概率抽样与非概率抽样的比较1.概率抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的
13、结果推断总体2.非概率抽样不是依据随机原则抽选样本样本统计量的分布是不确定的无法使用样本的结果推断总体第26页,共134页,编辑于2022年,星期二搜集数据的基本方法搜集数据的基本方法搜集数据的基本方法调查的数据的数据实验的数据实验的数据自填式自填式面面访式式电话式式第27页,共134页,编辑于2022年,星期二各调查方法的比较自填式 面访式电话式调查时间慢中等快捷调查费用低高低问卷难度要求容易可以复杂要求容易有形辅助物的使用中等利用充分利用无法利用调查过程控制简单复杂容易调查员作用的发挥无法发挥充分发挥一般发挥回答率最低较高一般第28页,共134页,编辑于2022年,星期二实验租和对照组1.
14、将研究对象分为两组:实验组和对照组2.实验组和随机组的产生应遵循随机原则,而且应该匹配匹配指对实验单位的背景材料进行分析比较,将情况类似的每对单位分别随机地分配到实验组和对照组1.3 实验数据实验数据第29页,共134页,编辑于2022年,星期二实验中的若干问题1.人的意愿研究的对象是人的时候,在划分实验组和对照组时的随机原则将面临挑战2.心理问题 人们对被研究非常敏感,这使得他们更加注意自我,从而走到事物的另一个极端 3.道德问题 当某种实验涉及道德问题时,人们会处于进退两难的尴尬境地 第30页,共134页,编辑于2022年,星期二实验中的统计1.实验设计本身就是一个统计问题2.确定进行实验
15、所需要的单位的个数,以保证实验可以达到统计显著的结果3.将统计的思想融入到实验设计中,使实验设计符合统计分析的标准4.对实验数据进行分析时,统计可以提供最恰当的分析方法 第31页,共134页,编辑于2022年,星期二1.4 数据的误差第32页,共134页,编辑于2022年,星期二抽样误差(sampling error)1.由于抽样的随机性所带来的误差 2.所有样本可能的结果与总体真值之间的平均性差异 3.影响抽样误差的大小的因素样本量的大小总体的变异性第33页,共134页,编辑于2022年,星期二非抽样误差(non-sampling error)1.相对抽样误差而言2.除抽样误差之外的,由于其
16、他原因造成的样本观察结果与总体真值之间的差异3.存在于所有的调查之中概率抽样,非概率抽样,全面性调查4.有抽样框误差、回答误差、无回答误差、调查员误差、测量误差第34页,共134页,编辑于2022年,星期二误差的控制1.抽样误差可计算和控制2.非抽样误差的控制调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验、评估现场调查人员进行奖惩的制度第35页,共134页,编辑于2022年,星期二统计数据的质量要求1.精精 度:度:最低的抽样误差或随机误差2.准准 确确 性:性:最小的非抽样误差或偏差3.关关 联联 性:性:满足用户决策、管理和研究的需要4.及及 时时 性:性:在最短
17、的时间里取得并公布数据5.一一 致致 性:性:保持时间序列的可比性6.最低成本:最低成本:以最经济的方式取得数据第36页,共134页,编辑于2022年,星期二 2 数据的整理与显示2.1 数据的预处理数据的预处理 2.2 分类和顺序数据的整理与显示分类和顺序数据的整理与显示2.3 数值型数据的整理与显示数值型数据的整理与显示2.4 统计表统计表第37页,共134页,编辑于2022年,星期二学习目标1.了解数据预处理的内容和目的了解数据预处理的内容和目的2.掌握分类和顺序数据的整理与显示方法掌握分类和顺序数据的整理与显示方法3.掌握数值型数据的整理与显示方法掌握数值型数据的整理与显示方法4.用用
18、R作频数分布表和形图作频数分布表和形图5.合理使用统计表合理使用统计表第38页,共134页,编辑于2022年,星期二1.数据的审核检查数据中的错误2.数据的筛选找出符合条件的数据3.数据排序升序和降序寻找数据的基本特征2.1 数据的预处理数据的预处理 第39页,共134页,编辑于2022年,星期二数据审核原始数据(raw data)审核的内容审核的内容1.完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全2.准确性审核检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等第40页,共134页,编辑于2022年,星期二数据的审核原始数据(ra
19、w data)审核数据准确性的方法审核数据准确性的方法1.逻辑检查从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象主要用于对分类和顺序据的审核2.计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对数值型数据的审核第41页,共134页,编辑于2022年,星期二数据的审核二手数据(second hand data)1.适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要2.时效性审核尽可能使用最新的数据3.确认是否必要做进一步的加工整理第42页,共134页,编辑于2022年,星期二数据筛选(data fil
20、ter)1.当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选2.数据筛选的内容包括将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除第43页,共134页,编辑于2022年,星期二1.要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的2.对分类数据和顺序数据主要是做分类整理3.对数值型数据则主要是做分组整理4.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据2.2 分类和顺序数据的整理与显示分类和顺序数据的整
21、理与显示第44页,共134页,编辑于2022年,星期二分类数据的整理(基本过程)1.1.列出各类别2.计算各类别的频数3.3.制作频数分布表4.用图形显示数据分类频数比例百分比比率ABCDE第45页,共134页,编辑于2022年,星期二分类数据的整理(可计算的统计量)1.频数频数(frequency):落在各类别中的数据个数2.比例比例(proportion):某一类别数据占全部数据的比值3.百分比百分比(percentage):将对比的基数作为100而计算的比值,即比例比例X100%4.比率比率(ratio):不同类别数值的比值第46页,共134页,编辑于2022年,星期二分类数据整理频数分
22、布表(例题分析)【例例例例】一一家家市市场场调调查查公公司司为为研研究究不不同同品品牌牌饮饮料料的的市市场场占占有有率率,对对随随机机抽抽取取的的一一家家超超市市进进行行了了调调查查。调调查查员员在在某某天天对对5050名名顾顾客客购购买买饮饮料料的的品品牌牌进进行行了了记记录录,如如果果一一个个顾顾客客购购买买某某一一品品牌牌的的饮饮料料,就就将将这这一一饮饮料料的的品品牌牌名名字字记记录录一一次次 。右右边边就就是是记记录录的的原始数据原始数据用用R制作频数分布表制作频数分布表第47页,共134页,编辑于2022年,星期二例例1 读取某公司雇员数据(读取某公司雇员数据(SPSS数据文件)数
23、据文件),保存为保存为R数据数据文件,指定因子各水平的标签,分析性别、是否少数民族、文件,指定因子各水平的标签,分析性别、是否少数民族、工作类型、教育程度等频数分布。工作类型、教育程度等频数分布。y=read.spss(E:/R and Statistics/R Teaching/dataset/Employee data.sav,use.value.labels=F,to.data.frame=T,max.value.labels=Inf,trim.factor.names=FALSE)Names(y);1 ID GENDER BDATE EDUC JOBCAT SALARY 7 SALBE
24、GIN JOBTIME PREVEXP MINORITYyy$MINORITY=factor(y$MINORITY,levels=sort(unique(y$MINORITY),decreasing=T),labels=c(Yes,No),exclude=NA,order=F)第48页,共134页,编辑于2022年,星期二y$JOBCAT=factor(y$JOBCAT,levels=sort(unique(y$JOBCAT),decreasing=T),labels=c(经理,保管员,服务员),exclude=NA,order=F)Edata=y;save(Edata,file=E:/R/E
25、mployee data.Rdata)load(E:/R/Edata.Rdata);attach(Edata);table(Edata$JOBCAT)经理经理 保管员保管员 服务员服务员 84 27 363 第49页,共134页,编辑于2022年,星期二 table(Edata$GENDER)f m 216 258 table(Edata$MINORITY)Yes No 104 370 table(Edata$EDUC)8 12 14 15 16 17 18 19 20 21 53 190 6 116 59 11 9 27 2 1 第50页,共134页,编辑于2022年,星期二分类数据的图示条
26、形图(bar Chart)1.用宽度相同的条形的高度或长短来表示各类别数据的图形2.有单式条形图、复式条形图等形式3.主要用于反映分类数据的频数分布4.绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图第51页,共134页,编辑于2022年,星期二分类数据的图示条形图(例题分析)第52页,共134页,编辑于2022年,星期二例例2 对公司雇员数据,做出性别、工作类型、对公司雇员数据,做出性别、工作类型、教育程度等条形图。教育程度等条形图。plot(Edata$GENDER)plot(Edata$JOBCAT)hist(Edata$EDUC)第53页,共134页,编辑于2022年
27、,星期二第54页,共134页,编辑于2022年,星期二第55页,共134页,编辑于2022年,星期二第56页,共134页,编辑于2022年,星期二分类数据的图示饼图(pie Chart)1.也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形2.主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用3.绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占3600的相应比例确定的第57页,共134页,编辑于2022年,星期二分类数据的图示饼图(例题分析)第58页,共134页,编辑于2022年,星期二例例3 对公司雇员数据
28、,做出性别、工作类型、对公司雇员数据,做出性别、工作类型、教育程度等饼图。教育程度等饼图。pie(table(Edata$GENDER)pie(table(Edata$JOBCAT)pie(table(Edata$EDUC)第59页,共134页,编辑于2022年,星期二第60页,共134页,编辑于2022年,星期二第61页,共134页,编辑于2022年,星期二第62页,共134页,编辑于2022年,星期二顺序数据的整理(可计算的指标)1.累累积积频频数数(cumulative frequencies):各类别频数的逐级累加2.累累积积频频率率(cumulative percentages):各
29、类别频率(百分比)的逐级累加第63页,共134页,编辑于2022年,星期二顺序数据的频数分布表(例题分析)【例例例例】在在一一项项城城市市住住房房问问题题的的研研究究中中,研研究究人人员员在在甲甲乙乙两两个个城城市市各各抽抽样样调调查查300300户户,其其中中的的一一个个问问题题是是:“您您对对您您家家庭庭目目前前的的住住房房状状况况是是否满意?否满意?1 1非非常常不不满满意意;2 2不不满满意意;3 3一一般般;4 4满满意意;5 5非常满意。非常满意。甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积 向下累积 户数(户)百分比(%)户数(户)百分比(%)非
30、常不满意 不满意 一般 满意 非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计300100.0第64页,共134页,编辑于2022年,星期二顺序数据的频数分布表(例题分析)乙城市家庭对住房状况评价的频数分布回答类别乙城市户数(户)百分比(%)向上累积 向下累积 户数(户)百分比(%)户数(户)百分比(%)非常不满意 不满意 一般 满意 非常满意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030
31、027918010238100.093.060.034.012.7合计300100.0第65页,共134页,编辑于2022年,星期二顺序数据的图示累计频数分布图(例题分析)243001322252700100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(a)向上累积向上累积27616830300750100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(b)向下累积向下累积甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布甲城市家庭对住房状况评价的累积频数分布第66页,共1
32、34页,编辑于2022年,星期二环形图(annular chart)1.环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示2.环形图与圆形图类似,但又有区别圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环3.环形图可用于结构比较研究 4.环形图主要用于展示分类和顺序数据第67页,共134页,编辑于2022年,星期二环形图(例题分析)8%36%31%15%7%33%26%21%13%10%非常不满意 不满意 一般 满意 非常满意 甲乙两城市家庭对住房状况的评价甲乙两城市家庭对住房状况的评价第68页,共134页,编辑于2022年
33、,星期二等距分组等距分组异距分组异距分组2.3 数值型数据的整理与显示数值型数据的整理与显示第69页,共134页,编辑于2022年,星期二单变量值分组(要点)1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况第70页,共134页,编辑于2022年,星期二组距分组(要点)1.将变量值的一个区间作为一组2.适合于连续变量3.适合于变量值较多的情况4.需要遵循“不重不漏”的原则5.可采用等距分组,也可采用不等距分组第71页,共134页,编辑于2022年,星期二组距分组(步骤)1.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按 Sturges 提出的
34、经验公式来确定组数K2.2.确确定定组组距距:组组距距(Class(Class Width)Width)是是一一个个组组的的上上限限与与下下限限之之差差,可可根根据据全全部部数数据据的的最最大大值值和和最最小小值值及及所所分分的的组组数数来确定,即来确定,即 组距组距组距组距(最大值最大值最大值最大值 -最小值最小值最小值最小值)组数组数组数组数 3.3.统计出各组的频数并整理成频数分布表统计出各组的频数并整理成频数分布表 第72页,共134页,编辑于2022年,星期二组距分组(几个概念)1.下限下限(low limit):一个组的最小值2.上限上限(upper limit):一个组的最大值3
35、.组距组距(class width):上限与下限之差4.组中值组中值(class midpoint):下限与上限之间的中点值下限值下限值+上限值上限值2组中值组中值=第73页,共134页,编辑于2022年,星期二频数分布表的编制(例题分析)【例例例例】某某电电脑脑公公司司20022002年年前前四四个个月月各各天天的的销销售售量量数数据据(单单位位:台台)。试试对对数数据进行分组。据进行分组。第74页,共134页,编辑于2022年,星期二频数分布表的编制(步骤)1.确定组数:根据 Sturges 提出的经验公式得组数K为:2.确定各组的组距:组距组距(237 237-141)10=9.6 10
36、3.用用R制作频数分布表制作频数分布表 第75页,共134页,编辑于2022年,星期二等距分组表(上下组限重叠)第76页,共134页,编辑于2022年,星期二等距分组表(上下组限间断)第77页,共134页,编辑于2022年,星期二等距分组表(使用开口组)第78页,共134页,编辑于2022年,星期二组距分组与不等距分组(在表现频数分布上的差异)1.等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征2.不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况第79页,共134页
37、,编辑于2022年,星期二分组数据直方图(histogram)1.用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面面积积来表示各组的频数分布2.在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图3.直方图下的总面积等于1数值型数据的图示第80页,共134页,编辑于2022年,星期二分组数据的图示(直方图的绘制)140140 150150210210直方图下的面积之直方图下的面积之和等于和等于1?1?某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图190190 20020018
38、0180160160 170170频频频频频频数数数数数数(天天天天天天)25252020151510105 53030220220 230230240240第81页,共134页,编辑于2022年,星期二例例4 对公司雇员数据,做出工资数据直方图。对公司雇员数据,做出工资数据直方图。hist(Edata$SALARY)hist(Edata$SALARY,labels=T)第82页,共134页,编辑于2022年,星期二第83页,共134页,编辑于2022年,星期二第84页,共134页,编辑于2022年,星期二分组数据直方图(直方图与条形图的区别)1.条形图是用条形的长度(横置时)表示各类别频数的
39、多少,其宽度(表示类别)则是固定的2.直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义3.直方图的各矩形通常是连续排列,条形图则是分开排列4.条形图主要用于展示分类数据,直方图则主要用于展示数值型数据第85页,共134页,编辑于2022年,星期二分组数据折线图(frequency polygon)1.折线图也称频数多边形图2.是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉3.折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩
40、形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的第86页,共134页,编辑于2022年,星期二分组数据的图示(折线图的绘制)折线图与直方图折线图与直方图下的面积相等!下的面积相等!140140150150210210某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图190190200200180180160160170170220220230230240240频频频频频频数数数数数数(天天天天天天)25252020151510105 53030第87页,共134页,编辑于2022年
41、,星期二未分组数据茎叶图(stem-and-leaf display)1.用于显示未分组的原始数据的分布2.由“茎”和“叶”两部分构成,其图形是由数字组成的3.以该组数据的高位数值作树茎,低位数字作树叶4.树叶上只保留一位数字5.对于n(20 n 300)个数据,茎叶图最大行数不超过 L=10 lg(n)6.茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息第88页,共134页,编辑于2022年,星期二未分组数据茎叶图(例题分析)第89页,共134页,编辑于2022年,星期二未分组数
42、据茎叶图(扩展的茎叶图)第90页,共134页,编辑于2022年,星期二未分组数据箱线图(box plot)1.用于显示未分组的原始数据的分布2.箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成3.其绘制方法是:首先找出一组数据的5个特征值,即最最大大值值、最最小小值值、中中位位数数Me 和两个四四分分位位数数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接 第91页,共134页,编辑于2022年,星期二未分组数据单批数据箱线图(箱线图的构成)中位数中位数4 46 68 810101212QQU UUQQL L LX X最大值最大值最大值
43、X X最小值最小值最小值简单箱线图简单箱线图简单箱线图简单箱线图第92页,共134页,编辑于2022年,星期二未分组数据单批数据箱线图(例题分析)最小值最小值最小值141141141最大值最大值最大值237237237中位数中位数中位数182182182下四分位数下四分位数下四分位数170.25170.25170.25上四分位数上四分位数上四分位数197197197140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 21
44、0 220 230 240某电脑公司销售量数据的箱线图某电脑公司销售量数据的箱线图某电脑公司销售量数据的箱线图某电脑公司销售量数据的箱线图第93页,共134页,编辑于2022年,星期二分布的形状与箱线图 对称分布对称分布对称分布对称分布对称分布对称分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布Q QQL LL 中位数中位数中位数中位数中位数中位数 Q QQU UU不同分布的箱线图不同分布的箱线图不同分布
45、的箱线图不同分布的箱线图第94页,共134页,编辑于2022年,星期二例例5 对公司雇员数据,做出工资数据箱线图。对公司雇员数据,做出工资数据箱线图。boxplot(Edata$SALARY,data=Edata,col=lightgray);第95页,共134页,编辑于2022年,星期二未分组数据多批数据箱线图(例题分析)【例例例例】从从某某大大学学经经济济管管理理专专业业二二年年级级学学生生中中随随机机抽抽取取1111人人,对对8 8门门主主要要课课程程的的考考试试成成绩绩进进行行调调查查,所所得得结结果果如如表表。试试绘绘制制各各科科考考试试成成绩绩的的批批比比较较箱箱线线图图,并并分分
46、析析各各科科考考试试成成绩绩的的分分布特征布特征11名学生各科的考试成绩数据课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177第96页,共134页,编辑于2022年,星期二未分组数据多批
47、数据箱线图(例题分析)8 8门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图第97页,共134页,编辑于2022年,星期二1111名学生名学生名学生名学生8 8门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图门课程考试成绩的箱线图Min-Max25%-75%Median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据多批数据箱线图(例题分析)第98页,共134页,编辑于2022年,星期二例例6 对某公司雇员数据,分析性别与工作类型、对某公司雇员数据,分析性别与工作
48、类型、性别与是否少数民族的特征,作出交叉频数分布表。性别与是否少数民族的特征,作出交叉频数分布表。ftable(Edatac(GENDER,JOBCAT)JOBCAT 经理经理 保管员保管员 服务员服务员 GENDER f 10 0 206m 74 27 157ftable(Edatac(GENDER,MINORITY)MINORITY Yes NoGENDER f 40 176 m 64 194第99页,共134页,编辑于2022年,星期二例例7 对某公司雇员数据,分析不同性别、工作类型对某公司雇员数据,分析不同性别、工作类型、少数民族的收入差异,、少数民族的收入差异,作出多批数据箱线图作出
49、多批数据箱线图。boxplot(Edata$SALARYEdata$GENDER,data=Edata,col=lightgray);boxplot(Edata$SALARYEdata$JOBCAT,data=Edata,col=lightgray);boxplot(Edata$SALARYEdata$MINORITY,data=Edata,col=lightgray);第100页,共134页,编辑于2022年,星期二第101页,共134页,编辑于2022年,星期二第102页,共134页,编辑于2022年,星期二第103页,共134页,编辑于2022年,星期二例例8 对某公司雇员数据,分析不同
50、性别、工作类型对某公司雇员数据,分析不同性别、工作类型之间的收入差异,之间的收入差异,作出多批数据箱线图作出多批数据箱线图。boxplot(split(Edata$SALARY,list(Edata$JOBCAT,Edata$GENDER),col=lightgray);boxplot(split(Edata$SALARY,list(Edata$GENDER,Edata$JOBCAT),col=lightgray);不同性别在不同工作类型上的当前工资比较。与不同性别在不同工作类型上的当前工资比较。与工资增长率不同,性别差异在工资水平上的差异工资增长率不同,性别差异在工资水平上的差异十分明显,男