《市场调查实验课教案(54页).doc》由会员分享,可在线阅读,更多相关《市场调查实验课教案(54页).doc(54页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-第四章用 Excel 和 SPSS 制作统计图4.1 用 Excel 和 SPSS 制作常用统计图4.1.1制作统计图应该注意的问题一般来说统计图能够更有效地向读者传达信息。然而,一幅拙劣的图形却可能使读者不知所云,甚至传达出错误的信息。总体说来,要得到一幅科学的统计图形应该注意以下几个方面的问题:1、通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息,而不是歪曲事实。例如,不恰当的三维效果常常会引起误解。2、图形要尽量简明。图形应该突出所要传达的信息,不必要的标签、背景、网格线、等会分散读者的注意力。图形越简单,读者就越能够迅速理解你要传达的信息。3、图形应该有清
2、楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等。4、反复加工和修改是获得优秀统计图形的重要步骤。统计软件给出的统计图形没有多少可以不加修改而直接应用。要得到一个图形很容易,但要使图形符合要求往往还需要耐心地修改,就像一篇论文需要反复修改一样。4.1.2用 Excel 制作常用统计图Excel 提供了强大的图形编辑能力,可以完成非常优秀的统计图形。然而,未经修改 Excel图形甚至可能是错误的。我们这一节只介绍三种最常用的图形:线图、条形图和饼图的绘制方法。使用Excel作图时需要特别注意:在有些图形中你可以用鼠标移动图形中的数据点,Excel会根据新的位置修改原
3、始数据!一定要避免这一方面的误操作。1、线图(Line Plot)。线图常用于描绘连续的数据,有助于观察现象发展的长期趋势。例 4.1表 4-1 是我国 1991-2003 年的就业人数。根据数据绘制线形图。表 4-1 是我国 1991-2003 年的就业人数-第 54 页-年份1991199219931994199519961997就业人数(万人)65491661526680867455680656895069820年份199819992000200120022003就业人数(万人)706377139472085730257374074432单击工具栏中的,或者使用菜单栏中的“插入”“图表”
4、,会弹出Excel的图表向导。从中选择“折线图”,在下一步中把就业人数的区域(包括变量名)指定为数据区域,31单击“完成”,就可以得到图 4-1。很多情况下 Excel 会自动识别数据区域,但自动识别数据区域时最容易出现的错误是不能正确识别用于分类轴的数据,而把它作为“系列”数据使用。这时需要从“系列”数据中删除分类序列,并为图形指定分类序列。就业人数7600074000720007000068000660006400062000600001 2 3 4 5 6 7 8 9 10 11 12 13就业人数 图 4-1 Excel 默认格式下的线图图 4-1 显然不是一个理想的图表。由于只有一个
5、变量,图例和图表标题是不必要的;背景使图形不够鲜明,网格线使图形显得比较凌乱;横坐标没有显示相应的年份;纵坐标从60000 万人开始可能不够合理,而且没有标出单位。下面我们来对图4-1进行修改。在图表区单击右键,选择“源数据”,在弹出的对话框中指定“分类(X)轴标志”对应的数据区域(不要包含变量名)。这样横轴就可以显示年份了。仔细观察图3-15,你会发现横轴的刻度线与Y的值不是垂直对应的,Y的值处于刻度之间。要改变这种显示方式,在图形的横轴上双击鼠标左键,在弹出的对话框中选择“刻度”选项卡,取消选中“数值(Y)轴至于分类之间”的复选框。你还可以在这个对话框中进一步设定横轴的字体、对齐方式等等。
6、在字体设定中最好取消选定“自动缩放”的复选框,这会使字体随着图形大小的调整而变化。删除图例和图形内的标题,去掉图形的外框,修改图形背景以及网格线的格式,最后把纵轴的刻度改为从0开始,为纵轴加上单位,调整后的图形如图4-2。要熟练掌握图表属性的修改方法最重要的就是多练习,具体操作方法可以参见Excel的帮助文件。对比图 4-1和 4-2,你会发现虽然在数学意义上两个图形都没有错的,但纵坐标起始值的调整对图形的形状有较大影响,原始的图形可能给人以就业人数迅速增加的错误印象。我们这里着重强调的一点是统计软件自动确定的坐标轴的刻度不一定是最恰当的。在实际应用中坐标轴从 0 开始标注也不一定是最好的选择
7、。3280000700006000050000400003000020000100000图 4-2 1991 年-2003 年我国的就业人数(年底数)2、条形图(Bar Chart)。本书所说的条形图指的是 Excel 中所说的“柱形图”。例 4.2根据学生调查的结果,学生对使用英文教材的态度如表 4-2。根据数据绘制条形图。表 4-2学生对使用英文教材的态度对使用英文教材的态度百分比非常不好不太好无所谓比较好非常好8.57%31.43%17.14%22.86%20.00%用 Excel 绘制条形图,经过调整后的结果如图 4-3。35%30%25%20%15%10%5%0%非常不好不太好无所谓
8、比较好非常好图 4-3学生对使用英文教材的态度使用Excel图形需要注意的一个问题是,虽然Excel中的大部分图形都可以使用三维效果(图4-4是一个条形图的例子),但许多数据处理专家都反对这类图形。在图4-4中第三维(深度)并不是依据有意义的数据绘制的,而且根据这类图形很难准确读出图形所表现的数值。根据图4-4,你能正确判断对是否使用英文教材“无所谓”的学生占17.14%吗?看起来像不像15%或20%?由于类似的原因,Excel提供的圆锥图、圆柱图和棱锥图也不应用于学术报告33 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 200
9、2 2003 万人中。当然,如果你3个数轴都代表了有实质意义的变量,使用真正意义上的三维图形是必要的。35%30%25%20%15%10%5%0%非常不好不太好无所谓比较好非常好图 4-4对使用英文教材的态度:三维效果3、饼图(Pie Chart)。饼图常常用于显示相对比例或者对整体的贡献。这种图形只能使用一个数据系列,对于显示很少的几个数据点很有效,但数据量太大时则很难说明问题。通常饼图中的数据点不应多于6个。有学者指出,饼图不过是用极坐标表示的条形图而已,当数据点过多时饼图不如条形图清晰。例如,表4-2的数据就可以用图4-5饼图来显示。只要在Excel的条形图中单击鼠标右键选择“图表类型”
10、,把图表类型改为饼图,在对图形的边框、数据标志、字体等做必要的修改就可以了。无所不太好,31.43%非常不好,8.57%非常好,谓,17.14%比较好,22.86%20.00%图4-5 学生对使用英文教材的态度饼图4.1.3用 SPSS 制作常用统计图SPSS具有很强的制图功能,可以绘制多种统计图形。这些图形可以由各种统计分析过程产生,也可以直接由菜单Graphs图形菜单产生。SPSS图形的制作可分为三个过程:建立数据文件;生成图形;修饰生成的图形。1、线图。例4.3以表3-9的数据为例用SPSS制作线图。选择Graphs Line进入Line Chart对话框(图4-6)。有3种线图可选:S
11、imple为单一线图,Multiple 为多条线图,Drop-line为落点线图。本例选单一线图。在定义选项框的下方有一数据类型栏,提供了3种数据类型:Summaries for groups ofcases以分组数据的汇总结果为数据点绘图;Summaries of separate variables以变量的汇总结果为数据点绘图;Values of individual cases以各个观测的观察值为数据点绘图。本例中选择第三种情况。34单击define按钮,把就业人数选为需要绘制的变量,把年份定义为分类变量,单击“OK”后就可以得到一个图形了。在SPSS中双击该图形可以对图形的各个元素进行
12、修改,修改后的图形见图4-7。图 4-6 线图类型的选择框80000就业60000人数40000万人2000001991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003年份图 4-7我国就业人数的线图2、条形图。例4.4用SPSS做一个分组的条形图,比较学生调查中男生和女生对统计学的兴趣。选择GraphsBar,在Bar Chart对话框中把条形图的类型选为Clustered(复式条形图),将数据类型选择为Summaries for groups of cases。接下来,在定义条形图的对话框(图4-8)中选择分类变量为“
13、兴趣”,每一类别中的分组变量为“性别”,用条形代表观测数的百分比,点击“OK”后就可以得到分组条形图了。对图形进行进一步的修改后得到的图形如图4-9。35 ( )40.0%30.0%20.0%10.0%0.0%图 4-8条形图的定义框性别男女3、饼图。很不喜欢不太喜欢无所谓比较喜欢非常喜欢兴趣图 4-9对统计学兴趣的性别差异例4.5作出学生对统计学兴趣百分比的饼图。选择GraphsPie,在Pie Chart选项框中选择Summaries for Groups of Cases,在接下来的对话框中,在“Slices Represent”选项中选择% of cases,在“define slic
14、es by”框中选择变量“兴趣”,点击OK按钮完成图形,然后对图形进行必要的修改,可以得到图4-10的结果。36 Pe rc e n t无所谓20.0%很不喜欢11.43%不太喜欢25.71%比较喜欢非常喜欢20.0%22.86%图 4-10 学生对统计学课程的兴趣4.2 描述数据分布状况的统计图直方图、箱线图、茎叶图等都可以用来描述数据的分布状况,其中最为常用的是直方图。4.2.1用 Excel 绘制直方图虽然Excel的分析工具库提供了绘制直方图(Histogram)的功能,但Excel所绘制的直方图实际上就先对数据进行分组,然后根据分组资料绘制的条形图,而不是统计意义上的直方图。因此,如
15、果你有其他的软件可用,我们不建议你用Excel的直方图功能。如果要用Excel绘制的直方图,一定要对Excel给出的图形进行必要的调整。例4.6用Excel来绘制学生调查中“概率成绩”的直方图。使用直方图工具与使用FREQENCY函数类似,需要指定分组界限(做直方图时也可以不指定分组界限,但注意Excel完成的直方图是无法调整分组界限的)。单击工具数据分析直方图,会弹出直方图对话框(图4-11)。定义了输入区域(数据区域)、接受区域(分组界限)后,将输出选项定义为当前表格的中的一个单元格,选中“图表输出”复选框,“确定”后Excel会给出相应的频数分布表(表4-3)和“直方图”(图4-12)。
16、概率成绩的最低分为49分,最高分为92分,我们以40-50,50-60,60-70,70-80,80-90,90-100来进行分组:在Excel表格中输入49、59、69、79、89,将这个区域作为接受区域。注意在表4-3,Excel所说的“频率”实际上是频数(次数)。另外一点是Excel在对数据进行分组时总会增加一组(大于接收区域最后一个组限的数据个数),即使这个组中没有数据。图4-12实际上就是根据表4-3作的条形图。要把这个条形图调整成直方图的形式至少需要做以下两方面的修改:一是各条形之间不应该有间隔;二是横轴标注的刻度应该是连续的区间。首先,双击图中的条形区域,在弹出的数据系列格式对话
17、框的“选项”选项卡中把分类间距调整为0,这样各个条形之间就是连续的了。其次,双击图形的横轴,把横轴的字体颜色改为白色,字体背景色改为透明,把原来的横轴数值隐藏起来,然后在图形中添加一个文本框,在横轴的对应位置标出相应的数值。对图形再进行一些细微调整,最后得到的直方37图如图4-12。20100图4-11 Excel的直方图对话框表4-3 Excel生成的次数分布表接收频率4915906977915898其他4直方图频率4959697989其他图4-12 Excel生成的“直方图”接收38 频率1614人1210数86420 40 50 60 70 80 90 10059697989其他考试成绩
18、图4-13 调整后的直方图4.2.2用 SPSS 绘制直方图1、根据原始数据绘制直方图。例4.7用SPSS制作统计成绩的直方图。调用Graphs菜单的Histogram 过程可绘制直方图。在Histogram对话框中把“概率成绩”变量选入Variable框,再点击OK钮就完成了,SPSS会自动确定分组界限。如果对SPSS确定的分组界限不满意,可以用以下方法进行修改:双击直方图进入编辑状态,然后双击条形,会弹出图4-13所示的属性对话框,在Histogram Options选项卡中,把Anchor First bin改为Custom value for anchor,其值取为45;把Bin Si
19、ze改为Custom,指定区间长度为5。你还可以要求在图形中添加一条正态曲线进行对比(图4-14)。对图形的其他特性再作进一步修改,最后得到的直方图如图4-15。图4-14 391086420M ean = 76.6S td. D ev. = 9.79N = 3540506070概率成绩80901002、根据分组数据绘制直方图。图4-15 SPSS绘制的直方图例4.8用SPSS根据分组资料绘制直方图。如果需要根据分组数据绘制直方图,首先要正确输入数据(参见3.1.3节),为数据指定相应的权数,然后再使用Histogram 过程作图。使用3.1.3节的数据对学生月支出的情况作直方图,结果如图4-
20、16所示。7.006.005.004.003.002.001.000.002003004005006007008009001000月支出图4-16 SPSS根据分组数据绘制的直方图4.2.3 用 SPSS 绘制茎叶图和箱线图1、茎叶图。在数据数量不太多时,茎叶图可以很好的反映数据的分布状况,并且能够保留原始数据的信息。Excel没有提供创建茎叶图的功能。例4.9用SPSS创建茎叶图。在SPSS中选择AnalyzeDescriptive Statistics Explore过程可以完成茎叶图的绘制。在Explore对话框中,单击Plots按钮,选中“Stem-and-leaf”复选框(这是默认选
21、项),在输出结果中就会看到茎叶图。对学生调查中的身高数据作茎叶图,结果如图4-17。在茎叶图的输出中,第一组的茎为15,叶分别为8,8,9,9,茎的宽度为10(Stem width: 10),说明这一组的实际数值分别为15.8*10=158、158、159、159,共有4个数据。从茎叶图可以看出身高的中位数和众数都等于165厘米。SPSS在作茎叶图时如果发现数据中有极端40 F re que ncy Fr eq ue ncy值会单独作为一组标出,而不作为茎叶图的一部分;如果数据位数很多,可能会舍弃后面数据位的数值。身高 Stem-and-Leaf Plot Frequency Stem & L
22、eaf 4.00 15 . 8899 11.00 16 . 01112233344 9.00 16 . 555567889 7.00 17 . 0122334 2.00 17 . 58 2.00 18 . 03 Stem width: 10 Each leaf: 1 case(s)图4-17 茎叶图2、箱线图(Box plot).Excel没有提供直接绘制箱线图的功能。例4.10用SPSS绘制箱线图。在SPSS中可以通过GraphsBoxplot调出绘制箱线图的对话框(图4-18)。在这个对话框中选择“Simple”、并选择“Summaries for groups of cases”,在接下
23、来的对话框中把“统计成绩”作为分析变量,把性别作为分类变量,得到的箱线图如图4-19。SPSS中的箱线图是这样绘制的:先根据三个四分位数(Q1、Q2、Q3)画出中间的盒子。盒子的长度Q3-Q1称为四分位距(interquartile range,IQR)。然后,由Q3至Q3+1.5*IQR区间内的最大值向盒子的顶端连线;如果数据处于Q3+1.5*IQR至Q3+3*IQR的范围内用圆圈标出,超出了Q3+3*IQR的用星号标出。在Q1一侧也用类似的方法绘制:由Q1至Q1-1.5*IQR区间内的最小值向盒子的底部连线;Q1-1.5*IQR至Q1-3*IQR的范围内用圆圈标出,小于Q1-3*IQR的用
24、星号标出。在图3-33中我们可以看出,有一个男生的统计成绩在Q1-1.5*IQR至Q1-3*IQR的范围内,这个人的观测号是3(圆圈旁边的数字“3”表示观测号)。图4-18 SPSS的箱线图对话框41统计成绩100908070605040303男性别女图4-19 箱线图4.3* 质量管理中的统计图统计图形是现代质量管理的重要手段之一。这一节我们首先介绍简单的排列图(ParetoChart,也称帕雷托图),然后分别介绍几种常用的控制图。Excel没有直接提供这些图形功能,以下案例都是由 SPSS 完成的。我们这里主要侧重讲解图形的软件实现,对于其中涉及的专业知识请进一步参考有关参考书。4.3.1
25、排列图排列图是用来寻找影响产品质量的主要因素的一种方法,由此可以确定质量改进的方向。在现实中很多问题通常是由少数主要原因引起的,其基本原理是区分“关键的少数”和“次要的多数”,这样有助于抓关键因素。为直观起见用图形表示出来,这一图形便是排列图。例4.11你工作的电脑公司为客户提供上门电脑维修服务。最近顾客要求上门维修的次数有所上升,为了找出导致问题的主要原因,你调查了最近的 80 次维修记录,发现导致电脑故障的主要原因如表 4-4。试根据表中的数据作 Pareto 图以找出导致问题的主要原因。表 4-4电脑故障的原因分类问题类别硬盘故障显示器故障主板故障光驱故障软件和病毒问题其他问题出现次数5
26、81019353在SPSS中建立数据文件,定义变量名为原因(字符型)和次数(数值型),输入相应的数据。然后选GraphsPareto,SPSS会弹出Pareto Chart定义选项框,选“Simple”和Datain Charts are“Counts or sums of groups of cases”(都是默认选项),然后点击Define 按钮弹出Define对话框,把变量“次数”选入Sums of variable框,“原因”选入Category Axis框,如图4-20。再点击OK钮即完成定义过程,结果如图4-21所示。这个图形实际就是一个条形42图和一个累计频率折线图的复合图形,x
27、轴要先从大到小进行排序。从图4-21可以看出,造成电脑故障的主要原因是软件和光驱问题,减少电脑故障应首先从这两个方面着手。图4-20 定义Pareto图的对话框次8060100%80%60%数40200软件和病光驱故障主板故障 显示器故硬盘故障其他问题毒问题障原因图4-21 Pareto图40%20%0%4.3.2计量值控制图控制图是进行统计过程控制的重要手段,可以帮助我们及时发现过程中出现的异常波动并采取措施加以消除,以保持质量的稳定。控制图可以分为两类:用于连续数据(计量值)的控制图和用于属性数据(计数值)的控制图。这一小节我们先来看计量值控制图。1、均值-极差控制图以及均值-标准差控制图
28、。均值控制图( x 图)主要用来判断过程的均值是否处于受控状态;极差控制图(R图)和标准差控制图(s 图)主要用来统计过程的波动是否处于受控状态。 x 图一般与 R 图或 s 图组合在一起出现,这样可以同时了解统计过程的波动和均值的特性。通常当样本容量大于5时使用 s 图,样本容量小于等于 5 时使用 R 图1。例 4.12某食品厂生产的薯条每包的标准重量为 150 克,每包的重量在 145-155 克为合格。现每隔一小时从生产线上抽取 5 包进行称重,共抽取了 25 个样本,数据如表 4-5。根据数据制作均值-极差控制图并计算过程能力指数。表 4-5薯条重量的抽样数据样本序号12X1 X2
29、X3 X4 X51481491501511511501501461481501MINITAB Users Guide 2: Data Analysis and Quality Tools, Minitab Inc.,2000。43 Pe rc e n t34567891011121314151617181920212223242515014915014914815114914914914914815115014815015415114914815114915014815015114914814815114914914814915215115014915015115015315015015215
30、0151150152150148151151153150151148150150149150152152149152151151151148147151149148152151148153150149151148150150150151151154150150151152150149146150150150148151152149148151153148149147151148150153151151148149152在SPSS中建立数据文件,选择GraphsControl,在弹出的Control Charts选项框选择X-bar,R,s图形,数据类型选择后一种“Cases are subgr
31、oups”(数据表中的每一行是一个样本)(图4-22)。如果所有的变量值都存储在一个变量中,另有一个变量记录变量值的样本序号,则数据类型是前面一种(“Cases are unit”)。点击Define按钮,弹出控制图的定义菜单。把x1-x5 选入Samples框,图形类型选择默认的X-Bar and range(图-23)。点击Statistics按钮,在弹出的对话框中输入规格要求:上限为155,下限为145,目标值为150。要求输出过程能力指数CpK。在这个对话框中你可以指定过程标准差的计算方法。我们这里采用默认方法(根据R-Bar估计)(图4-24)。返回主菜单,点击“OK”就可以得到需要
32、的控制图了。经过编辑修改的图形如图4-25和图4-26。均值和极差控制图说明过程处于统计控制状态。根据我们设定的参数SPSS计算的Cpk=1.089,过程能力尚可。44图 4-22 控制图的选择框图 4-23 X-bar,R,s 图的定义框图 4-24 X-bar,R,s 图的统计指标对话框45156154152150148146144155U C L=1.9744149.9440LC L=147.91361451591317212586420图 4-25 X-Bar 图U C L=7.4433.52159131721252、单值-移动极差控制图。图 4-26 R 图当利用平均值进行过程控制不
33、切实际时(例如获得观测值的费用很高,短时间内的输出结果相似等等),可以使用单值控制图。由于在这种情况下不可能计算每个个体值对应的标准差或极差,与单值控制图配合使用的是移动极差控制图,移动极差 Ri=xi xii1,= 2,3,.k。例4.13在薯条的例子中假设每次抽样时只取一包薯条进行称重(假设都为第一个样品 x1),根据数据作单值-移动极差控制图。选择GraphsControl,在弹出的Control Charts选项框选择Individuals, Moving Range图形,在控制图的定义菜单中把x1选入Process Measurement框,点击“OK”就可以得到需要的控制图了。经过
34、编辑修改的图形如图4-27和图4-28。单值控制图和移动极差控制图都处于受控状态。46 Me a n Ra n g e158156154152150148146144U C L=156.3328150.24LC L=144.14721591317212586420图 4-27 单值控制图U C L=7.48582.2917159131721254.3.3计数值控制图图 4-28 移动极差图1、不合格品率控制图和不合格品数控制图。不合格品率控制图(p 图)是评价过程不合格品率的统计工具,不合格品数控制图(np图)是用于评价不合格品数的统计工具。在每个样本的样本容量不同时只能使用 p 图,样本容量
35、相同时可以使用 p 图或 np 图。例 4.14某超市长期从一供应商处购进苹果。在每批进货中检验人员都随机抽取 4 箱进行检验,记录擦伤的苹果数。每箱苹果的重量为 10 公斤,大约 25-30 只苹果。连续 25 批产品的检验结果如表 4-6。试作 p 图。表 4-6 苹果的抽样数据批次12345苹果数120119108116103擦伤数4459347批次1415161718苹果数104105114103112擦伤数91346 M o vi ng R a ng e o f 267891011121310410511110111410410110534713448192021222324251151031091171091041067526364在SPSS中建立数据文件,选择GraphsControl,选择p, np图,数据类型选择“Cases aresubgroups”。在控制图的定义菜单中把“擦伤数”选入Number of nonconforming框,把变量“样本容量”选入“Sample size”框中,选择默认的p图,点击“OK”就可以得到需要的控制图了。经过修改的图形如图4-29,图形表明不合格率处于受控状态。0.120.100.080.060.040.020.00U C L.042415913