《教学课件(02)第2章 数据处理与频数分布(E3).pptx》由会员分享,可在线阅读,更多相关《教学课件(02)第2章 数据处理与频数分布(E3).pptx(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、教材配套资源页完整PPT课件教学课件(02)第2章 数据处理与频数分布(E3)12 - 2统计学基于 Excel贾俊平2022-7-112022-7-11基于基于 ExcelExcel2 - 3统计学基于 Excel贾俊平2022-7-112022-7-112 - 4统计学基于 Excel贾俊平2022-7-112022-7-11思维一下思维一下l在你的生活或工作中接触过数据吗?如果接触过,都是些什么样的数据?这些数在你的生活或工作中接触过数据吗?如果接触过,都是些什么样的数据?这些数据对你有用吗?据对你有用吗?l如果将如果将20002000个家庭的调查问卷交给你处理,你首先会做什么?个家庭的
2、调查问卷交给你处理,你首先会做什么?l如何将如何将500500个学生的调查问卷数据汇总在一张表格里?个学生的调查问卷数据汇总在一张表格里?l如果按收入的多少将家庭分成低收入、中等收入和高收入,你会怎么做?如果按收入的多少将家庭分成低收入、中等收入和高收入,你会怎么做?2 - 5统计学基于 Excel贾俊平2022-7-112022-7-11 审核完整性和准确性 检查应调查个体是否有遗漏,所有的调查项目是否填写齐全等 准确性审核主要是检查数据是否有错误,是否存在异常值等。对于异常值要仔细进行鉴别:如果异常值属于记录时的错误,在分析之前应予以纠正;如果异常值是一个正确的值,则应予以保留 数据审核数
3、据审核审核数据的适用性和时效性首先应弄清楚数据的来源、数据的口径以及有关的背景材料,以便确定这些数据是否符合自己分析研究的需要,不能盲目生搬硬套审核数据的时效性,对于有些时效性较强的问题,如果所取得的数据过于滞后,可能失去了研究的意义录入到计算机来建立数据文件,以便进行分析 数据的预处理2 - 6统计学基于 Excel贾俊平2022-7-112022-7-11 避免录入数据时出现错误 在Excel表中要录入数据的区域限定录入的条件。如果录入的数据不符合限定条件时将出现错误提示信息,以便及时修改 数据验证数据验证 第1步:用鼠标在工作表中选定录入数据的单元格区域,如A1:B10单元格区域 第2步
4、:选择【数据】【数据验证】 第3步:在【验证条件】的【允许】框内选择要录入的数据类型,比如,“整数”。在【介于】框内选择验证条件,或者在“最小值”和“最大值”框内输入数据范围。比如,在【最小值】框内输入0,在【最大值】框内输入10 第4步:点击【出错警告】,在【式样】下选择“警告”,在【错误信息】下输入警告信息,比如“NA”。然后点击【确定】,即可完成设置 数据的预处理2 - 7统计学基于 Excel贾俊平2022-7-112022-7-11 数据排序数据排序在某大学随机抽取50名学生进行调查,得到性别、家庭所在地、月生活费支出(元)和月网上购物支出(元)数据如表21所示。对学生月生活费支出按
5、升序排列 数据的预处理ExcelExcel实现实现第第1步:步:将光标放在数据区域的任意单元格。然后点击【数据】【排序】,出现的界面如下图所示第第2步:步:在【主要关键字】框中选择要排序的变量,本例为“月生活费支出”,然后点击【确定】(如果要按家庭所在地排序,点击【选项】,在【方法】下选中“字母排序”或“笔划排序”)2 - 8统计学基于 Excel贾俊平2022-7-112022-7-11数据筛选(data filter):根据需要找出符合特定条件的某类数据沿用例21。筛选月生活费支出大于等于2000元的学生;性别为女、家庭所在地为大城市、月生活费支出大于1500元、月网上购物支出大于200元
6、的所有学生 数据筛选数据筛选筛选出月生活费大于筛选出月生活费大于20002000的学生的学生Excel Excel 实现实现第1步:将光标放在数据区域的任意单元格。然后点击【数据】【筛选】。这时绘在每个变量名中出现下拉箭头第2步:点击要筛选的变量的下拉箭头即可对该变量进行筛选。比如,要筛选出月生活费支出大于2000的学生,点击月生活费支出变量的下拉箭头第3步:点击“大于或等于”,并在后面的框内输入1500。点击【确定】 数据的预处理多条件筛选多条件筛选ExcelExcel实现实现2 - 9统计学基于 Excel贾俊平2022-7-112022-7-11l频数分布频数分布(frequency d
7、istribution):变量的取值及其相应的频数形成的分布l频数分布表频数分布表(frequency distribution table):展示变量的取值及其相应的频数分布的表格l频数频数(frequency):落在某一特定类别的数据个数 类别数据本身就是对事物的一种分类,先把所有的类别都列出来,然后统计出每一类别的频数,就是一张频数分布表 当只涉及一个类别变量时,这个变量的取值可以放在频数分布表中“行”的位置,也可以放在“列”的位置 当只涉及两个类别变量时,通常将一个变量的取值放在“行”的位置,另一个变量的取值放在“列”的位置,这种由两个变量交叉分类的频数分布表称为列联表(conting
8、ency table) 生成频数分布表生成频数分布表 类别数据的频数分布2 - 10统计学基于 Excel贾俊平2022-7-112022-7-11l只涉及一个类别变量时,这个变量的各类别(取值)可以放在频数分布表中“行”的位置,也可以放在“列”的位置,将该变量的各类别及其相应的频数列出来就是一个简单的频数表,也称为一维列联表l【例23】沿用例21。分别制作学生性别和家庭所在地的简单频数表 简单频数表简单频数表 类别数据的频数分布用【数据透视表】命令制作类别数据频数分布表用【数据透视表】命令制作类别数据频数分布表第第1 1步:步:选择【插入】【数据透视表】第第2 2步:步:在【表/区域】框内选
9、定数据区域。选择放置数据透视表的位置。系统默认是新工作表,如果要将透视表放在现有工作表中,选择【现有工作表】,并在【位置】框内点击工作表的任意单元格。点击【确定】第第3 3步:步:用鼠标右键单击数据透视表,选择【数据透视表选项】,在弹出的对话框中点击【显示】,并选中【经典数据透视表布局】,然后【确定】第第4 4步:步:将数据透视的一个字段拖至“行”位置,将“另一个字段”拖至 “列”的位置(行列可以互换),再将要计数的变量拖至“值字段”位置,即可生成需要的频数分布表2 - 11统计学基于 Excel贾俊平2022-7-112022-7-11l涉及两个类别变量时,通常将一个变量的各类别放在“行”的
10、位置,另一个变量的各类别放在“列”的位置(行和列可以互换),由两个类别变量交叉分类形成的频数分布表称为列联表(contingency table),也称交叉表(cross table) 二维列联表二维列联表 类别数据的频数分布2 - 12统计学基于 Excel贾俊平2022-7-112022-7-11l比例(proportion):也称构成比,它是一个样本(或总体)中各类别的频数与全部频数之比,通常用于反映样本(或总体)的构成或结构l百分比(percentage):将比例乘以100得到的数值称为百分比,用%表示l比率(ratio):比率是样本(或总体)中各不同类别频数之间的比值,反映各类别之间
11、的比较关系。由于比率不是部分与整体之间的对比关系,因而比值可能大于1l如果是有序类别数据,还可以计算累积百分比(Cumulative Percent)进行分析 类别数据分析类别数据分析 类别数据的频数分布家庭所在地家庭所在地人数(%)人数(%)人数(%)大城市大城市729.171038.461734.00乡镇地区乡镇地区729.17830.771530.00中小城市中小城市1041.67830.771836.00总计总计24100.0026100.0050100.002 - 13统计学基于 Excel贾俊平2022-7-112022-7-11 数据分组数据分组用用ExcelExcel制作频数分
12、布表制作频数分布表 数值数据的类别化分组分组人数人数频率(频率(% %)2002502002507 74.674.6725030025030011117.337.33300350300350222214.6714.67350400350400383825.3325.33400450400450292919.3319.33450500450500202013.3313.3350055050055012128.008.005506005506006 64.004.006006506006503 32.002.006507006507002 21.331.33合计合计150150100.00100.002 - 14统计学基于 Excel贾俊平2022-7-112022-7-11 THANKS THE END2022-7-11 THE END THANKS数据处理频数表频数分布142 - 15统计学基于 Excel贾俊平2022-7-112022-7-11本课件制作整理者:郭迎春 仅可用于教学、学习、交流使用 如内容、图片、字体等有侵权,请联系删除。 15