《贾俊平《统计学》第五版第3章数据的图表展.ppt》由会员分享,可在线阅读,更多相关《贾俊平《统计学》第五版第3章数据的图表展.ppt(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第3章 数据的图表展示数据的预处理品质数据的整理与展示数值型数据的整理与展示合理使用图标3.1 数据的预处理3.1.1 数据审核 原始原始数据数据二手二手数据数据适用性适用性时效性时效性完整性完整性审核审核准确性准确性审核审核应调查的单位是否有遗漏所有的调查项目是否填写齐全数据是否有错误是否存在异常值应尽可能使用最新的统计数据来源、口径以及有关的背景材料是否符合自己分析研究的需要3.1.2 数据筛选3.1.3 数据排序例3.13.1.4 数据透视表例3.23.2 品质数据的整理与展示3.2.1 分类数据的整理与展示1.频数与频数分布频数:落在各类别中的数据个数。将各类别及落在其中的相应频数列出
2、,用表格形式表现出来,称为频数分布。例3.32.分类数据的图示(1)条形图是用宽度相同的条形的高度或长短来表示数据变动的图形条形图有单式、复式等形式在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率例3.3(2)帕累托图不同类别的数据根据其频率降序排列的,并在同一张图中画出累积百分比图用双直角坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率(3)饼图用圆形及园内扇形的面积来表示数值大小的图形主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用例3.3(4)环形图环形图是由两个及两个以上大小不一的饼图叠在一起,挖去中间的部分所构成的图形3.2.2 顺序数据的整理
3、与图示1.累积频数和累积频率可以是向上累计频数,也可以是向下累计频数。向上累计频数分布是先列出各组的上限,然后由标志值低的组向标志值高的组依次累计频数。向下累计频数分布是先列出各组的下限,然后由标志值高的组向标志值低的组依次累计频数。例3.53.3 数值型数据的整理与展示3.3.1 数据分组将原始数据按照某种标准分成不同的组别,用于观察数据的分布特征等距分组等距分组异距分组异距分组实例某生产车间50名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126
4、 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137 114 120 128 124 115 139 128 124 121单变量值分组表某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表零件数零件数(个个)频数频数(人人)零件数零件数(个个)频数频数(人人)零件数零件数(个个)频数频数(人人)107108110112113114115117118121211133119120121122123124125126127121443223128
5、129130131133134135137139211122112等距分组表(上下组限重叠)某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)105110110115115120120125125130130135135140358141064610162820128合计合计50100等距分组表(上下组限间断)某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)105109110114115119120124125129130134135139358
6、141064610162820128合计合计50100等距分组表(使用开口组)某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)110以下以下110114115119120124125129130134135以上以上358141064610162820128合计合计501003.3.2 数值型数据的图示1.分组数据:直方图用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)频频
7、频频频频数数数数数数(人人人人人人)151512129 96 63 3105105110110115115120120125125130130135135140140日加工零件数日加工零件数日加工零件数日加工零件数日加工零件数日加工零件数(个个个个个个)2.未分组数据:茎叶图和箱线图(1)茎叶图用于显示未分组的原始数据的分布,由“茎”和“叶”两部分构成,其图形是由数字组成的,以该组数据的高位数值作树茎,低位数字作树叶(2)箱线图将一组数据从大到小排列,分别计算出他的上边缘,上四分位数,中位数,下四分位数,下边缘,还有一个异常值。4 46 68 810101212图3-9 简单箱线图中位数中位数
8、Q QU UX X最大值最大值X X最小值最小值Q QL L对称分布对称分布对称分布对称分布对称分布对称分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布Q QQL LL中位数中位数中位数中位数中位数中位数 Q QQU UU右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布Q QQL LL 中位数中位数中位数中位数中位数中位数 Q QQU UU不同分布的箱线图不同分布的箱线图分布的形状与箱线图分布的形状与箱线图未分组数据多批数据箱线图8门课程考试成绩的箱线图门课程考试成绩的箱线图11名学生名学生8门课程考试成绩的箱线图门课程
9、考试成绩的箱线图Min-Max25%-75%Median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生113.时间序列数据:线图时间一般绘在横轴,指标数据绘在纵轴图形的长宽比例要适当,其长宽比例大致为10:7一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断例3.84.多变量数据的图示(1)散点图用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式例3.9(2)气泡图展示三个变量之间的关系例3.9(3)雷达图3.4 合理使用图表3
10、.4.1 鉴别图形优劣的准则强调数据间的比较强调数据间的比较有对图形的统有对图形的统计描述和文字计描述和文字说明说明服务于一个明确服务于一个明确的目的的目的让读者的注意力集让读者的注意力集中在图形内容上中在图形内容上避免歪曲避免歪曲显示数据显示数据好图好图3.4.2 统计表的设计项目单位1997年 1998年 一、调查户数 二、平均每户家庭人口数 三、平均每户就业人口数 四、平均每人全部收入 五、平均每人实际支出 消费性支出 非消费性支出 六、平均每人居住面积户人人元元元元平方米 37890 3.19 1.83 5188.54 4945.87 4185.64 755.94 11.90 39080 3.16 1.80 5458.34 5322.95 4331.61 987.17 12.40资料来源:中国统计摘要1999,中国统计出版社,1999,第79页。注:1本表为城市和县城的城镇居民家庭抽样调查材料。2消费性支出项目包括:食品、衣着、家庭设备用品及服务、医疗 保健、交通和通讯、娱乐教育文化服务、居住、杂项商品和服务。行行行行标标标标题题题题列列列列标标标标题题题题数数数数字字字字资资资资料料料料附附附附加加加加表头表头表头表头19971998年城镇居民家庭抽样调查资料