《第五章基本统计分析优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第五章基本统计分析优秀PPT.ppt(49页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第五章基本统计分析第一页,本课件共有49页SPSS的基本统计分析频数分析频数分析-对应表格法计算描述统计量-对应数值法对应数值法探索性描述分析探索性描述分析-结合结合交叉分组下的频数分析交叉分组下的频数分析多选项分析多选项分析统计图统计图-对应图形法第二页,本课件共有49页频数分析v目的粗略把握变量的总体分布状况。例:对某个问题的总体看法,如新业务的使用愿望、教学效果等 对某事物的客观描述,如通话的漫游类型、大客户的行业分布v采用的方法制作频数分布表:包括计算 频数、累计频数、百分比、累计百分比绘制统计图形:条形图(品质数据)、饼图、直方图(数量数据)第三页,本课件共有49页频数分析v基本操作
2、步骤(1)菜单选项:analyze-descriptive statistics-frequencies(2)选择几个待分析的变量到variables框.(3)chart选项,选择所需要的图形第四页,本课件共有49页频数分析v应用举例移动通话的漫游类型分析特点:定类数据使用频数、百分比、总数(不可缺少的)不使用频数表中给出的累计频数和累计百分比移动通话时间分析、移动客户话费分析特点:数量数据除使用频数、百分比、总数外,还可以充分使用累计频数和累计百分比第五页,本课件共有49页频数分析v数据中存在缺失值v使用有效百分比(分母为有效样本数)v例:学生成绩得优率、得良率frequencies-for
3、mat频数分布表输出按变量值、频数升序、降序输出第六页,本课件共有49页频数分析v频数分析中的其他分析计算中位数、分位数:适用于定序、定距数据v数据按升序排序后,找到若干个分位点上的变量值vquartiles:计算四分位数25%(QL)、50%(中位数)、75%(QU)v cut points for n equal groups:n等份vpercentile:自定义百分位点计算众数:适用于定类数据(但必须是数值型)第七页,本课件共有49页频数分析v频数分析中的其他分析分位数的应用 v从一个侧面比较两组样本数据的集中趋势例:(QL=50,QU=80)和 (QL=70,QU=75)的比较v在排除
4、极端值影响的条件下,通过计算分位数差,比较两组样本数据的离散程度例:(QL=50,QU=80)和 (QL=70,QU=75)的比较分位数、中位数、众数的应用举例不同类型的移动客户月话费比较(数据拆分)利用分位数(不显示频数分布表)第八页,本课件共有49页计算描述统计量v目的精确把握变量的总体分布状况,了解数据的集中趋势、离散趋势、对称程度、陡峭程度。v基本方法计算基本描述统计量第九页,本课件共有49页计算描述统计量v描述集中趋势的统计量均值(mean):表示某变量所有变量值集中趋势或平均水平的统计量。v适用于定距数据。v特点:利用了全部数据,易受极端值的影响。v描述离散程度的统计量标准差(st
5、andard deviation-Std Dev):表示某变量的所有变量值离散趋势的统计量。vSPSS中计算的是样本标准差。方差(variance):标准差的平方。vSPSS中计算的是样本方差。极差(range):最大值(minimum)-最小值(minimum)第十页,本课件共有49页计算描述统计量v描述对称程度的统计量 偏度(skewness):描述某变量所有变量值分布形态的偏斜程度和方向的统计量.v偏度为0表示对称;v大于0表示正偏差大(右偏),众数比均值小,极值大于均值;v小于0表示负偏差大(左偏)。第十一页,本课件共有49页计算描述统计量v描述陡峭程度的统计量峰度(kurtosis)
6、:描述某变量所有变量值分布形态陡缓程度的统计量。v峭度为0表示与正态分布峭度相同。v大于0表示比正态分布陡,尖峰。v小于0表示比正态分布缓;平峰。第十二页,本课件共有49页计算描述统计量v其他统计量 均值标准误差(S.E means)v中心极限定理认为:样本均值N(u,2/n)v反映样本均值与总体真值间的平均离散程度v样本数越大,样本均值的离散程度越小,对真值的估计越准确 第十三页,本课件共有49页计算描述统计量v基本操作步骤(1)菜单选项:analyze-descriptive statistics-descripive(2)选择将参加计算的数值型数值型变量名到variables框。仅适用于
7、数值型数值型变量v分析比较男生和女生的学习成绩v比较集中趋势v比较离散趋势v比较偏斜程度v比较陡峭程度v实现方式:数据拆分第十四页,本课件共有49页v其他功能数据标准化处理v新变量的均值为0,标准差为1;v小于0表示在平均水平下,大于0反之.v正态分布的数据标准化后呈标准正态分布(68%,95%,99%)vsave standardized values as variables选项v将变量作标准化后,结果存入名为“Z+原变量名”的新变量中.数据标准化处理应用举例v快速找到移动话费出众的客户v网通集团企业效益评价计算描述统计量第十五页,本课件共有49页探索性描述分析v目的:在未知数据分布特点情
8、况下,通过计算详尽描述统计量,辅助全面的统计图,认识数据分布。v基本操作步骤(1)菜单选项:analyze-descriptive statistics-Explore(2)选择将参加计算的数值型数值型变量名到Dependent list框。(3)进行分组描述分析时,将分组变量选入Fact list框v描述统计量:vM统计量:集中趋势的估计值,不受极端值影响。用于判断有无异常值。第十六页,本课件共有49页探索性描述分析v相关图形箱线图茎叶图直方图正态分布图:检验变量是否符合正态分布方差齐性检验:各组离散程度是否相同vH0:方差相等v举例:两班学生成绩分布情况,离散程度是否相同。第十七页,本课件
9、共有49页交叉分组下的频数分析v目的 通过了解不同变量在不同水平下的数据分布情况,判断水平对变量是否有影响v例:女生的学习成绩比男生好吗?(两变量)v 不同专业的女生学习成绩都比男生好吗?(三变量)v分析的主要步骤产生交叉列联表分析列联表中变量间的关系v针对定类数据和定序数据的频数分析第十八页,本课件共有49页产生交叉列联表什么是列联表多个变量在不同取值下的数据分布频数表列变量行变量工商管理控制变量频数性别成绩优良差男女第十九页,本课件共有49页产生交叉列联表v基本操作步骤(1)菜单选项:analyze-descriptive statistics-crosstabs(2)选择一个变量作为行变
10、量到row框.(3)选择一个变量作为列变量到column框.(4)可选一个或多个变量作为控制变量到layer框.(5)是否显示各分组的条图(display clustered bar charts)第二十页,本课件共有49页产生交叉列联表v定距数据可做适当分组后再产生列联表v仅利用频数,信息利用不充分v进一步计算 cells选项:选择在频数分析表中输出各种百分比.vrow:行百分比(Row pct);vcolumn:列百分比(Col pct);vtotal:总百分比(Tot pct);第二十一页,本课件共有49页分析列联表中变量间的关系v目的:通过列联表分析,检验行列变量之间是否独立。v方法:
11、卡方检验:对品质数据的相关性进行度量(这里两变量均为定类数据或定序数据)第二十二页,本课件共有49页分析列联表中变量间的关系卡方检验基本步骤(1)H0:行列变量之间无关联或相互独立(2)构造卡方统计量统计量服从(r-1)*(c-1)个自由度的卡方分布count:观察(实际)频数expected count:期望频数(期望频数反映的是H0成立情况下的数据分布特征)第二十三页,本课件共有49页分析列联表中变量间的关系v卡方检验基本步骤(3)计算卡方统计量的值,并得到该统计量值的概率P值(4)决策。概率P与显著性水平比较,小于等于则拒绝H0,否则不能拒绝v实现步骤vstatistics选项vcell
12、s选项第二十四页,本课件共有49页分析列联表中变量间的关系v卡方检验的要求:一般要求列联表中期望频数小于5的格子数不超过20%,否则会夸大卡方值,容易得出拒绝结论,可以采用精确检验。卡方值会受样本数的影响v行列变量相关性的其他测度指标vNominal:phi系数:在22列联表中,通常-1,1,负号无实际意义列联C系数(contingency coefficient),通常为0,1)V系数 0,1值越大表示行列变量的相关性越大第二十五页,本课件共有49页分析列联表中变量间的关系vOrdinal反映定序变量一致性指标行变量等级越高,列变量等级也越高或越低一致性高行变量等级越高,列变量等级不定不一致
13、指标绝对值越大越相关,越接近0越无关第二十六页,本课件共有49页定序变量一致性检验年龄与工资收入交叉列联表 低 中 高 青 400 0 0 中 0 500 0 老0 0 600 低 中 高 青 0 0 500 中 0 6000 老 400 0 0一致一致第二十七页,本课件共有49页应用举例不同行业大客户的价值一致吗?受教育程度越高通信支出比例越高吗?离网客户和在网客户的通话类型结构一致吗?第二十八页,本课件共有49页多选项分析v什么是多选项问题?(1)即:在回答某些问题时,答案在两个以上例如:请问您平时主要的休闲娱乐方式是:a.看电视、听广播b.玩游戏c.体育运动d.逛街购物e.经常去港澳游玩
14、f.看书学习g.喝酒聊天h.工作太忙,没时间休闲娱乐 又如:您经常浏览的网站?在下列品牌中您信任哪些品牌?(2)多选项问题不能直接处理。因为SPSS中的一个变量对每一个答案只能取一个值。第二十九页,本课件共有49页多选项分析v多选项问题的处理方法(1)思路:将一个问题定义成几个变量,用这几个变量来描述该问题的几个可能被选择的答案。分别做频数分析或交叉分组下的频数分析(2)方法:多选项二分法(multiple dichotomies method)和多选项分类法(multiple category method)普通频数分析和交叉分组下的频数分析第三十页,本课件共有49页多选项分析v多选项二分法
15、 将每个答案作为一个变量,每个变量只有两个取值(0或1)。例如:第三十一页,本课件共有49页多选项分析v多选项分类法:预先估计多选项问题可能被选择的最多答案数.为每个答案建立一个变量,取值为多选项问题的可选答案.例如:最多可选三个学校第三十二页,本课件共有49页多选项分析v多选项分析的基本思路定义多选项变量集多选项频数分析多选项交叉分组下的频数分析第三十三页,本课件共有49页多选项分析v定义多选项变量集目的:将已分解的变量定义为一个集合,便于进行多选项分析菜单选项:analyze-multiple response-define sets从原变量中选取被分解的变量(数值型)到variables
16、 in sets框指定被分解的变量是按多选项二分法(dichotomies)分解还是按多选项分类法(categories)分解的.为变量集命名。系统自动在名字前加字符$.第三十四页,本课件共有49页多选项分析v多选项频数分析菜单选项:analyze-multiple response-frequencies选择待分析的多选项变量集到tables for 框。缺失数据处理:只要有一个变量含有缺失值就将该个案剔除vexclude cases list wise within dichotomies:只用于二分变量多项选择的分析。vexclude cases list wise within cat
17、egories:只用于分类变量多项选择的分析。第三十五页,本课件共有49页多选项分析v多选项交叉分析下的频数分析菜单选项:analyze-multiple response-crosstabs选择行变量并定义取值范围选择列变量并定义取值范围选择控制变量并定义取值范围其他选项v常用分析指标:应答人数百分比(percent of cases):选择该项的人占总人数的比例(较大)应答次数百分比(percent of responses):选择该项的次数占总应答次数的比例(较小)第三十六页,本课件共有49页多选项分析v多选项分析实例在某次市场调查中收集了北京、上海和广州三个城市的受访者对几种常见饮料的
18、喜好情况,可选的饮料有茶、牛奶、咖啡、果汁、矿泉水。(数据是从原始数据库中抽出的一小部分资料),作以下分析:v采用二分法组织数据v受访人群中最受欢迎的饮料是哪种?v男、女喜爱的饮料有无差异?v三个城市的人群对饮料的喜好有无差异?v不同学历的消费者休闲方式有无差异?第三十七页,本课件共有49页统计图形的种类及用途v用于显示频数分布:(Line和Area也能作,但不很适合)1.Bar(不仅仅用于)2.Pie:3.Histogram:4.Boxplot:5.Error Bar:显示总体分布v用于判断数据分布1.P-P图2.Q-Q图第三十八页,本课件共有49页统计图形的种类及用途v用于时间序列1.Li
19、ne2.Area3.Bar:4.High-low:类似K线图v用于观察数量变量之间关系1.scatter第三十九页,本课件共有49页统计图形的种类及用途v用于数据分析1.Pareto分析重要因素2.Control分析数据变异v统计图形在SPSS中分为一般统计图和交互式统计图第四十页,本课件共有49页条形图其他汇总方式的条图:各科成绩的均值、各省份移动收入比例复式条图和堆积条图:两班男女生成绩均值第四十一页,本课件共有49页统计图的编辑双击图形进入编辑状态1.图形的转换:Gallery-2.条图、线图、面积图和饼图之间可互相转换3.散点图和直方图之间可互相转换2、图形的设置:Chart-opti
20、ons适用于复式和堆积图第四十二页,本课件共有49页统计图的编辑3、图形坐标设置Chart-AxisScale Axis:条图、线图、面积图中的纵轴,散点图、直方图中的纵轴和横轴Categeries:条图、线图、面积图中的横轴4、图形格式设置Fomat-注:需选中相应的元素第四十三页,本课件共有49页散点图1、简单散点图:用于观察两变量之间关系收入增长率与业务渗透率、GDP之间关系2、矩阵散点图:用于观察多变量之间的两两关系n X n矩阵:3、重叠散点图:用于观察多变量与某一变量之间的关系4、三维散点图:用于观察三变量在三维空间中的关系第四十四页,本课件共有49页Options1.拟合回归线:
21、线性、二次曲线、三次曲线、加权回归平滑2.预测区间3.显示某些散点标签4.葵花:用于清楚显示稠密的散点散点图的编辑第四十五页,本课件共有49页P-P图和Q-Q图vP-P图v将某变量的累积概率与指定理论分布累积概率相对比,观察某样本数据是否符合指定分布vQ-Q图v将某变量的分位数与指定理论分布分位数相对比,观察某样本数据是否符合指定分布结果与P-P图基本相同第四十六页,本课件共有49页交互式统计图v特点:1.拖放式操作2.存储数据,编辑时可改变更多v图形种类:1.两维图形2.三维图形(三个坐标轴)3.三维效果图形(两个坐标轴)v变量类别:加入内置变量第四十七页,本课件共有49页交互式条图vGra
22、ph-Intergraph-BarvAssign Varibles选择图形种类、各种变量vBar chart Options直条形状、标签、基线值vError Bars:Y轴为scale变量均值时,标出置信区间vTitlesvOptions 分类变量排序、坐标数值范围、图形模版、坐标轴长度第四十八页,本课件共有49页 作业v根据第三章的关于学生成绩的合并后的SPSS数据文件做以下处理:对各门课程进行分组后,做频数分析,绘制直方图绘制男女生构成的饼图分别计算男女生各门成绩的基本描述统计量,并对数据的集中趋势、离散程度和偏度加以比较针对某门课程的成绩,分析高于平均分和低于平均分的频数情况第四十九页,本课件共有49页