常用统计分析软件使用介绍.ppt

上传人:wuy****n92 文档编号:68591497 上传时间:2022-12-29 格式:PPT 页数:81 大小:2.35MB
返回 下载 相关 举报
常用统计分析软件使用介绍.ppt_第1页
第1页 / 共81页
常用统计分析软件使用介绍.ppt_第2页
第2页 / 共81页
点击查看更多>>
资源描述

《常用统计分析软件使用介绍.ppt》由会员分享,可在线阅读,更多相关《常用统计分析软件使用介绍.ppt(81页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、常用统计分析软件常用统计分析软件n 医学科研工作中需要处理大量统计问医学科研工作中需要处理大量统计问题,其数据统计分析主要回答两个问题:题,其数据统计分析主要回答两个问题:一是反应变量的差异是否可归因于分组因一是反应变量的差异是否可归因于分组因素或对比因素;二是多个反应变量间是否素或对比因素;二是多个反应变量间是否存在某种联系。统计分析大致分为以下几存在某种联系。统计分析大致分为以下几个方面:个方面:常用统计分析软件常用统计分析软件 1 1、数据质量检查:、数据质量检查:即考察数据分布及变量转换等。看数据是否即考察数据分布及变量转换等。看数据是否符合特定统计方法所要求的条件,如计算平均数、符合

2、特定统计方法所要求的条件,如计算平均数、标准差等时要求数据基本呈正态分布(正态性检标准差等时要求数据基本呈正态分布(正态性检验),方差分析还要求各组方差的差别不宜过大验),方差分析还要求各组方差的差别不宜过大(方差齐性检验),对于非正态分布的资料需要(方差齐性检验),对于非正态分布的资料需要进行变量转换(通过对数变换、平方根变换等转进行变量转换(通过对数变换、平方根变换等转化成正态分布资料)化成正态分布资料)常用统计分析软件常用统计分析软件n2 2、统计描述:按分组因素或控制因素分组,计、统计描述:按分组因素或控制因素分组,计算反映变量特性的基本统计量。算反映变量特性的基本统计量。n3 3、统

3、计推断:对不同资料,用特定的统计方法、统计推断:对不同资料,用特定的统计方法作分析处理。各种推断的假设检验得到的作分析处理。各种推断的假设检验得到的P P值是值是下结论的主要依据。下结论的主要依据。n 通过上述分析得到的结论,提供了专业分析通过上述分析得到的结论,提供了专业分析时的统计学背景。但这些分析时计算公式和表格时的统计学背景。但这些分析时计算公式和表格繁多,目前均可在计算机上借助统计软件完成,繁多,目前均可在计算机上借助统计软件完成,将各种分析结果简单明了地表达出来。将各种分析结果简单明了地表达出来。常用统计分析软件常用统计分析软件n 统计软件是一种应用软件,是对资料进行各统计软件是一

4、种应用软件,是对资料进行各种统计处理分析的系列程序组合。种统计处理分析的系列程序组合。n 常用的统计分析软件有:中国医学百科全常用的统计分析软件有:中国医学百科全书书-医学统计学统计软件包(医学统计学统计软件包(PEMSPEMS)、线性模)、线性模型统计软件包(型统计软件包(SPLMSPLM)、社会科学统计软件包)、社会科学统计软件包(SPSSSPSS)、标准统计软件系统()、标准统计软件系统(SASSAS)等。国际)等。国际上最流行并具有权威性的统计分析软件中,上最流行并具有权威性的统计分析软件中,SASSAS以其最专业化和功能最全面为统计专业人员用软以其最专业化和功能最全面为统计专业人员用

5、软件,而件,而SPSSSPSS则因易于操作而成为在非统计专业人则因易于操作而成为在非统计专业人员中应用最多的统计软件。员中应用最多的统计软件。常用统计分析软件常用统计分析软件SPSS for Windows Ver 10.0概述概述推荐使用的几本教材SPSSSPSS入门入门n序言nSPSS基础nSPSS数据文件的建立与管理nSPSS数据的基本加工和处理nSPSS输出窗口序序 言言n统计分析软件是数据分析的主要工具统计分析软件是数据分析的主要工具n完整的数据分析过程包括:完整的数据分析过程包括:n数据的收集数据的收集n数据的整理数据的整理n数据的分析数据的分析n统计学为数据分析过程提供一套完整的

6、科统计学为数据分析过程提供一套完整的科学的方法论。统计软件为数据分析提供了学的方法论。统计软件为数据分析提供了实现手段。实现手段。序序 言言n统计分析软件的一般特点统计分析软件的一般特点n功能全面,系统地集成了多种成熟的统计分功能全面,系统地集成了多种成熟的统计分析方法;析方法;n有完善的数据定义、操作和管理功能;有完善的数据定义、操作和管理功能;n方便地生成各种统计图形和统计表格;方便地生成各种统计图形和统计表格;n使用方式简单,有完备的联机帮助功能;使用方式简单,有完备的联机帮助功能;n软件开放性好,能方便地和其他软件进行数软件开放性好,能方便地和其他软件进行数据交换据交换序序 言言n常用

7、统计软件简介常用统计软件简介nSAS(Ver8.2)-SAS(Ver8.2)-真正的巨无霸。被誉为国真正的巨无霸。被誉为国际上的标准统计软件和最权威的组合式优秀际上的标准统计软件和最权威的组合式优秀统计软件。统计软件。n人机对话界面太不友好人机对话界面太不友好n图形操作界面比较糟糕图形操作界面比较糟糕n一切围绕编程设计一切围绕编程设计n学习起来较困难(编程)学习起来较困难(编程)n说明书非常难懂说明书非常难懂n价格贵的人直跳价格贵的人直跳序序 言言n常用统计软件简介常用统计软件简介SPSS(Ver10)-SPSS(Ver10)-统计软件中的统计软件中的贵族贵族n操作界面极为友好操作界面极为友好

8、n所有统计软件中最友好的所有统计软件中最友好的n精心设计的图形操作界面精心设计的图形操作界面n美观的结果输出美观的结果输出n强大的辅助教学功能强大的辅助教学功能n输出结果与中文输出结果与中文WORDWORD尚存在一定兼容问题尚存在一定兼容问题n在国内深受欢迎,特别是市场调研行业在国内深受欢迎,特别是市场调研行业n在欧洲各研究机构中得到广泛应用在欧洲各研究机构中得到广泛应用序序 言言n常用统计软件简介常用统计软件简介S-Plus(Ver6)S-Plus(Ver6)nS S语言(语言(AT&TAT&T贝尔实验室)的后续发展贝尔实验室)的后续发展n极为强大的统计功能和绘图能力极为强大的统计功能和绘图

9、能力n应用上以理论研究、统计建模为主应用上以理论研究、统计建模为主n需要有较好的数理统计背景需要有较好的数理统计背景n对编程能力要求极高对编程能力要求极高序序 言言n常用统计软件简介常用统计软件简介Stata(Ver7)Stata(Ver7)n软件小巧软件小巧n绘图美观绘图美观n统计分析能力极强统计分析能力极强n数据接口差数据接口差n不提供对话框界面,命令行方式操作不提供对话框界面,命令行方式操作序序 言言n n国产统计软件的佼佼者国产统计软件的佼佼者DPSDPS(v5.12v5.12)n n一套通用多功能数据处理、数值计算、统计一套通用多功能数据处理、数值计算、统计一套通用多功能数据处理、数

10、值计算、统计一套通用多功能数据处理、数值计算、统计分析和模型建立软件;分析和模型建立软件;分析和模型建立软件;分析和模型建立软件;n n较强的统计分析和数学模型模拟分析功能较强的统计分析和数学模型模拟分析功能较强的统计分析和数学模型模拟分析功能较强的统计分析和数学模型模拟分析功能;n n是目前国内功能最完整的统计软件包。是目前国内功能最完整的统计软件包。是目前国内功能最完整的统计软件包。是目前国内功能最完整的统计软件包。序序 言言n学习使用统计分析软件的基本方法学习使用统计分析软件的基本方法n弄清分析的目的弄清分析的目的n正确收集待处理和分析的数据正确收集待处理和分析的数据(目的、影响因素的目

11、的、影响因素的剔除)。剔除)。n弄清统计概念和统计含义,知道统计方法的适用范弄清统计概念和统计含义,知道统计方法的适用范围,无需记忆公式。围,无需记忆公式。n选择一种或几种统计分析方法探索性地分析数据。选择一种或几种统计分析方法探索性地分析数据。n读懂计算机分析的数据结果,发现规律,得出分析读懂计算机分析的数据结果,发现规律,得出分析SPSSSPSS基础基础n软件名称软件名称nStatistical Package for Social Science Statistical Package for Social Science nStatistical Product and Service

12、 Solutions Statistical Product and Service Solutions n软件发展软件发展n6060年代:美国斯坦福大学三位研究生研制年代:美国斯坦福大学三位研究生研制n7070年代:年代:SPSSSPSS总部成立于芝加哥,推出总部成立于芝加哥,推出 SPSS SPSS中小中小型机版型机版SPSSX SPSSX n8080年代:微机版(年代:微机版(V1-3V1-3)SPSS/PC+SPSS/PC+n9090年代:年代:WindowsWindows版(版(v5-11v5-11)n20032003年:年:WindowsWindows版(版(v12v12)SPSS

13、简介简介n SPSS(Statistical Package for Social Sciences,社会科学统计软件包,社会科学统计软件包),是当前国,是当前国际上公认的最为强大的统计分析软件之一。际上公认的最为强大的统计分析软件之一。它它不仅适用于社会科学,同样可应用于经济学、不仅适用于社会科学,同样可应用于经济学、心理学、医学等各个领域。心理学、医学等各个领域。最显著的特点是运最显著的特点是运用菜单和对话框的操作方式,用菜单和对话框的操作方式,除了数据录入外,除了数据录入外,它不需要编写程序,它不需要编写程序,绝大多数操作过程仅靠鼠绝大多数操作过程仅靠鼠标击键即可完成,易于操作,标击键即

14、可完成,易于操作,完全可以在完全可以在WindowsWindows下通过下通过“菜单菜单”、“对话框对话框”使用单击使用单击或双击鼠标来操作,非常方便,深受用户欢迎。或双击鼠标来操作,非常方便,深受用户欢迎。是应用最多的统计软件之一。是应用最多的统计软件之一。n目前最新版本为目前最新版本为SPSS 14.0版。版。SPSS 目前尚无汉化版本目前尚无汉化版本,但它可在汉化的但它可在汉化的Windows95或以上平台上或以上平台上使用。使用。界面友好,使界面友好,使用直观用直观、灵活,操作简便,是一个易学灵活,操作简便,是一个易学、好用好用的统计分析和图表制作工具,是较为理想的统计的统计分析和图表

15、制作工具,是较为理想的统计分析软件。分析软件。n 1.本软件特点本软件特点n (1)操作简便操作简便:系统提供了系统提供了“窗口菜单窗口菜单”、“对话框对话框”等简便操作方式。等简便操作方式。n (2)数据转换功能强数据转换功能强:可存取和转换多种数据可存取和转换多种数据类型类型,如如DBASE、FOXBASE、FOXPRO产生的产生的.dbf数据文件;数据文件;Excel产生的产生的.xls数据文件数据文件;由由SPSS for DOS产生的产生的.sys数据文件等都可方便地数据文件等都可方便地读入。而本软件产生的数据文件也可方便地转化为读入。而本软件产生的数据文件也可方便地转化为相应的其他

16、数据文件。相应的其他数据文件。n (3)数据管理功能强大数据管理功能强大:集数据录入集数据录入、转换转换、检索检索、管理管理、统计分析统计分析、作图作图、制表及编辑功能制表及编辑功能于一身。于一身。n n (4)统计分析方法全面统计分析方法全面、丰富丰富:含有最新的含有最新的统计分析方法且所用方法具有权威性。统计分析方法且所用方法具有权威性。n n (5)结果输出规范结果输出规范:输出结果主要为图形方输出结果主要为图形方式,规范而简洁,还可根据个人要求编辑输出方式,规范而简洁,还可根据个人要求编辑输出方式。式。2.主要窗口及其功能主要窗口及其功能 SPSS 10.0 主要有主要有3大窗口大窗口

17、:数据编辑窗数据编辑窗(Data Editor)、结果输出窗结果输出窗(Output Navigator)和语句编辑窗和语句编辑窗(Syntax Editor)n数据编辑窗主要有建立新的数据文件数据编辑窗主要有建立新的数据文件、编辑和编辑和显示已有数据文件等功能显示已有数据文件等功能.启动启动SPSS后后,数据数据编辑窗回自动打开编辑窗回自动打开.n所有统计分析结果所有统计分析结果,包括文本包括文本、图形和表格形图形和表格形式式,均显示在结果输出窗内均显示在结果输出窗内.结果输出窗相应地结果输出窗相应地设有设有3个编辑器个编辑器,即文本编辑器即文本编辑器、统计图编辑器统计图编辑器和统计表编辑器

18、和统计表编辑器,输出结果可通过激活这些编输出结果可通过激活这些编辑器进行编辑辑器进行编辑.n语句编辑窗的功能在于语句编辑窗的功能在于SPSS过程以命令语句过程以命令语句形式出现形式出现.该窗口还可编辑对话框操作不能实该窗口还可编辑对话框操作不能实现的特殊过程的命令语句现的特殊过程的命令语句.3 3、统计分析功能概述统计分析功能概述n(1)基本统计分析)基本统计分析n SPSS 10.0的基本统计分析功能是通过的基本统计分析功能是通过 Summarize完成的,打开完成的,打开Statistic菜单即可。菜单即可。包括频数分布分析(包括频数分布分析(frequencies)、描述性)、描述性统计

19、分析(统计分析(descriptive)、探索性分析)、探索性分析(explore)、列联表资料分析()、列联表资料分析(crosstabs)及观测量列表(及观测量列表(list cases)等。通过这些内容)等。通过这些内容可对数据的分布特征有全面的了解。可对数据的分布特征有全面的了解。3 3、统计分析功能概述统计分析功能概述n(2).其他统计分析功能其他统计分析功能n 有关统计分析方法,有均数比较有关统计分析方法,有均数比较(compare means)、广义因素分析()、广义因素分析(GLM-general factorial ANOVA)、相关分析)、相关分析(correlate)、回

20、归分析()、回归分析(regresssion)、)、聚类分析(聚类分析(classify)、因子分析()、因子分析(factor)、)、非参数检验(非参数检验(nonparametic test)、)、Logistic 回归分析、生存分析(回归分析、生存分析(survival)等)等分析功能分析功能4、输出结果的编辑、输出结果的编辑n 结果输出窗口的主要功能有结果输出窗口的主要功能有:浏览输出结果浏览输出结果、编辑输出的统计图表及文本、输出可供其他应编辑输出的统计图表及文本、输出可供其他应用软件所用的结果用软件所用的结果.n 结果输出窗又分为两个窗口结果输出窗又分为两个窗口:左窗为输出左窗为输

21、出的标题的标题,称为标题窗称为标题窗;右窗内为分析的具体输出右窗内为分析的具体输出内容内容,包括统计图包括统计图、表和文字说明、表和文字说明,称为内容窗称为内容窗.n 在结果窗内选择内容后在结果窗内选择内容后,单击鼠标右键单击鼠标右键,在在弹出菜单中选择弹出菜单中选择Copy/Copy Objects,Copy/Copy Objects,然后打然后打开开WordWord文件文件,选择粘贴命令选择粘贴命令,即可将所选内容粘即可将所选内容粘贴到文本文件中贴到文本文件中.SPSSSPSS简介(一)简介(一)SPSS for WindowsSPSS for Windows版本由最初的版本由最初的4.0

22、4.0版本发展升版本发展升级到现在的级到现在的11.011.0以上版本。以上版本。安装安装SPSS10.0 for Windows SPSS10.0 for Windows 软、硬件要求:软、硬件要求:1 1、Windows 95 Windows 95及以上版本;及以上版本;2 2、16MB16MB或以上内存;或以上内存;3 3、80MB80MB及以上可用硬盘空间。及以上可用硬盘空间。SPSSSPSS简介(二)简介(二)SPSSSPSS的启动:n在快捷工具栏单击SPSS 10.0SPSS 10.0 图标n开始 程序 SPSS 10.0 for WindowsSPSS 10.0 for Wind

23、owsSPSSSPSS软件分析的基本步骤:数据 选择分析程序 选择要分析的变量进行分析 得出结果 以文件 pan.savpan.sav 为例。SPSSSPSS简介(三)简介(三)SPSSSPSS的四个窗口的四个窗口:数据编辑窗口数据编辑窗口(Data Editor)(Data Editor):启动:启动SPSSSPSS后自动打后自动打开;开;File new data File new data。程序编辑窗口程序编辑窗口(Syntax Editor):File new(Syntax Editor):File new syntax syntax。结果输出窗口结果输出窗口(Viewer):(Vie

24、wer):第一次产生分析结果的第一次产生分析结果的SPSSSPSS过程过程 后自动出现;后自动出现;File new outputFile new output。图表编辑窗口(图表编辑窗口(Chart EditorChart Editor):选定要编辑的):选定要编辑的图表,双击它,即进入此窗口。图表,双击它,即进入此窗口。SPSSSPSS基础基础n基本窗口基本窗口n数据编辑窗口(数据编辑窗口(data editordata editor)n功能:对功能:对SPSSSPSS的数据进行定义、录入、修改、管理的数据进行定义、录入、修改、管理等基本操作的窗口等基本操作的窗口n组成:窗口主菜单(组成:

25、窗口主菜单(DataData、TransformTransform、AnalyzeAnalyze、GraphsGraphs)、工具栏、数据编辑区、状态显示区)、工具栏、数据编辑区、状态显示区nSPSSSPSS运行过程中自动打开;且只能打开一个窗口;运行过程中自动打开;且只能打开一个窗口;运行过程中无法关闭运行过程中无法关闭nSPSSSPSS中各统计分析功能都是针对该窗口中的数据进中各统计分析功能都是针对该窗口中的数据进行的;窗口中的数据以行的;窗口中的数据以.sav.sav存于磁盘上存于磁盘上SPSSSPSS基础基础n基本窗口基本窗口n输出窗口(输出窗口(viewerviewer)n功能:功能

26、:SPSSSPSS统计分析报表及图形的输出窗口统计分析报表及图形的输出窗口n组成:窗口主菜单、工具栏、结果显示区、状态显组成:窗口主菜单、工具栏、结果显示区、状态显示区示区n在进行第一次分析时自动打开,也可手工打开;可在进行第一次分析时自动打开,也可手工打开;可以手工打开若干个可相互切换的以手工打开若干个可相互切换的viewerviewer窗口;输出窗口;输出窗口可以关闭;窗口可以关闭;n状态栏上的!表示当前输出窗口状态栏上的!表示当前输出窗口n窗口内容以窗口内容以.spo.spo存于磁盘上存于磁盘上SPSSSPSS基础基础n利用利用SPSSSPSS做数据分析的一般步骤做数据分析的一般步骤n建

27、立建立SPSSSPSS数据文件数据文件n定义数据文件结构定义数据文件结构n录入修改和编辑待分析的数据录入修改和编辑待分析的数据n分析数据分析数据n统计分析之前的数据预处理统计分析之前的数据预处理n统计分析和建模统计分析和建模n结果的说明和解释结果的说明和解释n数据和分析结果的保存数据和分析结果的保存 SPSSSPSS数据文件的建立与管理数据文件的建立与管理n数据文件的特点数据文件的特点n数据库的建立数据库的建立n数据的录入和保存数据的录入和保存n数据的编辑数据的编辑n与其他软件数据共享与其他软件数据共享SPSSSPSS数据文件的特点数据文件的特点nSPSSSPSS数据文件是一种有结构的数据文件

28、数据文件是一种有结构的数据文件n数据文件的每一行代表一个观测量(概率事数据文件的每一行代表一个观测量(概率事件)件)n每一列代表一个变量每一列代表一个变量n在数据编辑器中可以输入和编辑数据,但是在数据编辑器中可以输入和编辑数据,但是不能输入数学表达式和函数不能输入数学表达式和函数数据库的建立数据库的建立新建数据文件新建数据文件:File New DataFile New Data 第一步:第一步:定义变量定义变量(Variable View)(Variable View)第二步:第二步:录入数据录入数据(Data View)(Data View)参见文件参见文件 use1.savuse1.sa

29、v.定义变量定义变量:NameName(变量名)(变量名)-最大允许最大允许8 8个英文字符、个英文字符、4 4个中文字符个中文字符TypeType(变量类型)(变量类型)-最常用的有数值型最常用的有数值型(Numeric)(Numeric)、字符型字符型(String)(String)、日期型(、日期型(datedate)等)等Labels (Labels (变量名标签变量名标签)-)-对变量的说明对变量的说明Values (Values (变量值标签变量值标签)-)-说明分组变量的取值情况说明分组变量的取值情况Missing(Missing(缺失值缺失值)Column (Column (变

30、量列变量列)Measure (Measure (变量量度变量量度)-Scale)-Scale为连续型变量为连续型变量(数值型数值型)Ordinal Ordinal为有序分类变量为有序分类变量(序数型序数型)Nominal Nominal为无序分类变量为无序分类变量(名词型名词型)n变量名变量名(Variable name)(Variable name)n变量名是变量存取的唯一标志变量名是变量存取的唯一标志n变量类型变量类型(type)(type)和显示宽度和显示宽度(width)(width)n数值型:常用标准数值型数值型:常用标准数值型(Numeric):(Numeric):默认类型默认类型

31、8.28.2如:如:1234567812345678、12345.6712345.67、-1234.56-1234.56n字符型字符型(String):(String):存储字符数据存储字符数据8 8位。如:位。如:beijingbeijing处理时用双引号扩起来处理时用双引号扩起来n日期型(日期型(Date):Date):存储日期数据,如:存储日期数据,如:20-AUG-199920-AUG-1999n注意:显示宽度不影响数据的存储注意:显示宽度不影响数据的存储数据库的建立例 用下面数据建立数据库:姓名姓名性别性别年龄年龄李国梅李国梅女女20程丽程丽女女19杨玲杨玲女女19王磊王磊男男21数

32、据库的建立数据库的建立录入数据录入数据:数据库为一个数据库为一个二维表二维表结构,一行为一个个体或一条结构,一行为一个个体或一条记录,一列为一个变量。记录,一列为一个变量。有三种录入方法:有三种录入方法:(1 1)直接录入)直接录入;(2 2)连续多个相同值的输入)连续多个相同值的输入;(3 3)将)将ExcelExcel数据直接引入数据直接引入SPSS;SPSS;(4)(4)其他数据库格式的导入其他数据库格式的导入;如如EPI,SAS,WORDEPI,SAS,WORD等等;数据的编辑数据的编辑n打开数据文件n数据定位n插入和删除个案n插入和删除变量n数据单元数据的移动和复制与其他软件共享数据

33、与其他软件共享数据n打开其他格式的数据文件n直接打开n在SPSS 10已经可以直接读入许多常用格式的数据文件n使用数据库查询打开n利用通用数据库ODBC接口读取数据文件n在9.0及以前版本中非常重要n使用文本导入向导读入文本文件n和大型机交换文件时常用与其它软件共享与其它软件共享n直接打开SPSSSPSS数据的基本加工和处理数据的基本加工和处理n数据文件的整理n个案排序、个案选取、文件合并、文件转置n数据加工n计算变量、产生计数变量、分类汇总n数据分组n手工分组n数据文件的其他处理功能n指定加权变量、SPSS变量集的定义和使用数据文件的整理数据文件的整理n个案排序(sort)n将所有个案按照用

34、户指定的某一个或多个变量的变量值的升序或降序重新排列n快速查找异常值、极端值n个案选取(select cases)n个案选取方式数据文件的整理数据文件的整理n文件合并(merge file)n将两个SPSS数据文件合并到一个数据文件中。n纵向合并、横向合并n文件转置(transpose)n将数据文件行列互换,即:将个案转为变量,变量转为个案.数据的加工数据的加工n变量计算(compute)n产生新变量或对原变量进行必要的转换nSPSS算术表达式和逻辑表达式nSPSS函数n产生计数变量(count)n对所有或部分个案,计算若干个变量中有几个变量的值落在指定的区域内,并将结果存入新变量中。数据的加

35、工数据的加工n分类汇总(aggreate)n按指定的分类变量的变量值对个案分组;n计算每组个案的汇总变量的基本统计量;n将计算结果生成到一新文件中,即:在新文件中对应分类变量的每一个分类值产生一个个案。数据的分组数据的分组n目的:了解数据的总体分布状况n手工分组(recode)n将指定按哪个变量分组,即:指定分组变量;定义分组变量的分组区间(不重、不漏);指定一个存放分组结果的标志变量n自动分组(Categorize Variables)n将连续性变量自动按分位数要求分成几类数据文件的其它处理功能数据文件的其它处理功能n加权(weight cases)n指定某一变量为加权变量。n变量集n加快变

36、量选择的速度n变量集的定义n变量集的使用第二章 统计分析n基本统计分析n均值检验n方差分析n相关和回归分析n聚类分析2.1 基本统计分析n频数分布分析(Frequencies)n描述性统计分析(Descriptives)n探索性分析(Explore)n列联表资料分析(Crosstabs)2.1.1 频数分布分析n目的n频数分布分析主要通过频数分布表、条图和直方图,以及集中趋势和离散趋势的各种统计量,描述数据的分布特征。n采用的方法n计算频分布表n绘制统计图形n上述方法适用于定序、定类、定距类型数据2.1.2 描述性统计分析n目的:n描述性统计分析主要用以计算描述集中趋势和离散趋势的各种统计量,

37、并可对变量进行标准化处理。n步骤:【Analyze】【Descriptive Statistics】【Descriptives】2.2 均值检验n统计假设检验概述n单样本的t检验n两个独立样本的t检验n两个配对样本的t检验统计假设检验概述n统计推断(statistical inference),就是根据抽样分布律和概率理论,由样本结果(统计数)来推论总体特征(参数)。n统计推断的基本内容:n统计假设检验(hypothesis test)n参数估计(parametric estimate)n统计假设检验是指根据某种实际需要,对未知的或不完全知道的统计总体提出一些假设(这些假设通常构成完全事件系)

38、,然后由样本的实际结果,经过一定的计算,作出在概率的意义上应当接受那种假设的检验。假设检验的步骤 n提出无效假设 :实得差异由误差造成;备择假设 :实得差异由总体参数不同造成。n确定显著水平 。n在 为正确的假设下,根据统计数的一定分布律,算出实得差异由误差造成的概率。n如果这个概率 ,则在 水平上否定 ,接受 ;反之亦然。2.2.2 单样本的t检验n含义:n检验某变量的总体均值与指定的检验值之间是否存在显著差异。n 要求:n样本来自的总体服从正态分布。n步骤:n【Analyze】【Compare means】【One sample t test】2.2.3 两独立样本的t检验n(一)含义:n

39、根据两独立样本的数据,对两总体均值是否有显著差异进行推断。n例如:男生和女生的计算机平均成绩有显著差异吗?n城镇和农村的平均存(取)款金额有显著差异吗?n(二)要求:n两样本必须相互独立,即:抽取其中一批样本对抽取另一批样本没有任何影响。(如:北京周岁儿童与上海儿童的平均身高)n两总体服从正态分布2.2.3 两独立样本的t检验n步骤n【Analyze】【Compare Means】【Independent-sample t test】n结论n首先,如果F检验的P,认为方差不齐性;其次看Unequal行的t检验概率。如果,则拒绝t检验的H0,认为两总体均值有显著差异;如果,则不拒绝t检验的H0。

40、n首先,如果F检验的P,认为方差齐性;其次看equal行的t检验概率。其余同上2.2.4 两配对样本的t检验n含义:n根据配对样本对两总体均值是否有显著差异进行推断.n例如:某种减肥茶是否有效n要求:n两样本数据必须两两配对,即:样本个数相同,个案顺序相同.如:减肥茶的效果、不同广告形式对销售额的影响.(控制了个案自身的影响)n两总体服从正态分布2.2.4 两配对样本的t检验n基本思路n计算两样本对应的个案的差值di=Y1i-Y2in计算t统计量和对应的相伴概率P(绝对值大于等于的双侧概率)n结论:P,则拒绝H0,认为两总体均值有显著差异.P,不能拒绝H0.n步骤n【Analyze】【Comp

41、are Means】【Paired-sample t test】2.3 方差分析n目的:n方差分析是从数据间的差异入手,分析哪些因素是影响数据差异的众多因素中的主要因素。n例如:n影响某农作物亩产量的因素(品种、施肥量、气候等)n影响推销某种商品的推销额(不同的推销策略、价格、包装方式、推销人员的形象等)n核心问题n从数据差异角度看:n观测变量的数据差异=控制因素造成+随机因素造成n方差分析正是要分析观测变量的变动是否主要是由控制因素造成还是由随机因素造成的,以及控制变量的各个水平是如何对观测变量造成影响的。2.3 方差分析n单因素试验资料方差分析n多因素试验资料方差分析n协方差分析2.3.1

42、 单因素方差分析n目的n检验某一个控制因素的改变是否会给观察变量带来显著影响.n例如:n考察不同肥料对某农作物亩产量是否有显著差异.n考察不同学历是否对工资收入产生显著影响.n步骤n【Analyze】【Compare Means】【One-way ANOVA】方差分析中的多重比较n目的n如果总体均值存在差异,F检验不能说明哪个水平造成了观察变量的显著差异。多重比较将对每个水平的均值逐对进行比较检验。n常用方法nLSD法n实际上就是t检验的变形,只是在变异和自由度的计算上利用了整个样本信息。nDuncan氏新复极差检验法nTukey氏固定极差检验法nDunnett氏最小显著差数检验法2.3.2

43、多因素方差分析n控制因素的种类n固定效应因素(Fixed Factor):指的是该因素在样本中所有可能的水平都出现了。n随机效应因素(Random Factor):该因素所有可能的取值在样本中没有都出现,因此要用样本来推论总体情况,包括未出现的水平。这不可避免的存在误差(即随机效应),需要估计该误差的大小,因此被称为随机因素。n基本思路:n以两个控制变量的方差分析为例:nSS总=SSA+SSB+SSAB+SSen表示两个控制变量的交互影响,即:两个控制变量各水平之间搭配时对观察变量的影响.2.3.3 协方差分析n目的:n将无法或很难控制的因素作为协变量,在排除协变量影响的条件下更精确地分析控制

44、变量对观察变量的影响。2.3.3 协方差分析n应用实例2.3.3 协方差分析n基本思路:n协变量是数值型的;与观测变量的线性关系在各水平均成立,且斜率大致相同。nSSSS总=SS=SS协+SS+SSA A+SS+SSB B+SS+SSABAB+SS+SSe en步骤n【Analyze】【General Linear Model】【Univariate】n注意:在弹出的对话框中将协变量选入【Covariate(s)】栏2.4 相关和回归分析n相关分析n一元回归分析n多元回归分析n曲线拟合n非线性回归分析2.4 相关和回归分析n相关分析和回归分析的任务n研究对象:统计关系n相关分析旨在测度变量间线

45、性关系的强弱程度。n回归分析侧重考察变量之间的数量变化规律,并通过一定的数学表达式来描述这种关系,进而确定一个或几个变量的变化对另一个变量的影响程度.2.4 相关和回归分析n目的n通过样本数据,研究两变量间线性相关程度的强弱。(例如:职工的年龄和收入之间的关系、工人数和管理人员之间的数量关系)n基本方法n绘制散点图、计算相关系数2.4.1 相关系数n作用:n以精确的相关系数(r)体现两个变量间的线性关系程度.nr:-1,+1;r=1:完全正相关;r=-1:完全负相关;r=0:无线性相关。n说明:n相关系数只是较好地度量了两变量间的线性相关程度,不能描述非线性关系。n数据中存在极端值时不好。2.

46、4.2 一元线性回归方程n一元回归方程:nY=a+bXna为常数项;b为Y对X回归系数,即:X每变动一个单位所引起的Y的平均变动n回归方程的显著性检验n(1)目的:n检验自变量与因变量之间的线性关系是否显著,是否可用线性模型来表示.n(2)检验方法nt检验nF检验(一元回归中,F检验与t检验一致,即:F=t2,两种检验可以相互替代)n步骤n【Analyze】【Regression】【Linear】2.4.3 多元线性回归分析n多元线性回归方程n多元回归方程:Y=0+1X1+2x2+.+kxkn1、2、k为偏回归系数。n1表示在其他自变量保持不变的情况下,自变量X1变动一个单位所引起的因变量Y的

47、平均变动n多元线性回归分析的主要问题n回归方程的检验n自变量筛选n多重共线性问题n自变量筛选法n向前筛选法(forward),是自变量不断进入回归方程的过程.n向后筛选法(backward),是自变量不断剔除出回归方程的过程n逐步筛选法(stepwise),是“向前法”和“向后法”的结合2.4.4 曲线拟合n目的:n在一元回归分析或时间序列中,因变量与自变量(时间)之间的关系不呈线性关系,但通过适当处理,可以转化为线性模型。可进行曲线估计。n曲线估计的常用模型:nY=a+bX(线性拟和linear)nY=a+b1X+b2X2(二次曲线quadratic)nY=a+b1X+b2X2+b3X3(三

48、次曲线cubic)nX为时间,也可为某一自变量。n步骤n【Analyze】【Regression】【Curve Estimation】2.4.5 非线性回归分析n意义n非线性回归过程建立因变量与一组自变量之间的非线性关系。n非线性模型可以在自变量与因变量之间达成某种模型,这些任务的完成是依靠迭代估计运算获得。n步骤n【Analyze】【Regression】【Nonlinear】n注意n在【Model Expression】框中输入一个合适的方程,在该方程中,包括变量、参数和常数等。n必须为每个参数设置初始值。2.5 聚类分析nK-means Cluster过程(快速聚类法)nHierarch

49、ical Cluster过程(系统聚类法)2.5.1 Hierarchical Cluster过程n属于系统聚类法的一种属于系统聚类法的一种n方法原理方法原理n先将所有先将所有n n个变量观测看成不同的个变量观测看成不同的n n类类n然后将性质最接近(距离最近)的两类合并为一类然后将性质最接近(距离最近)的两类合并为一类n再从这再从这n-1n-1类中找到最接近的两类加以合并类中找到最接近的两类加以合并n依此类推,直到所有的变量观测被合为一类依此类推,直到所有的变量观测被合为一类n使用者再根据具体的问题和聚类结果来决定应当分为几类使用者再根据具体的问题和聚类结果来决定应当分为几类n解题思路解题思路n应当选用变量聚类应当选用变量聚类n具体的分类数不明,需要输出全部结果具体的分类数不明,需要输出全部结果n方差和均数相差不大,无需进行标准化方差和均数相差不大,无需进行标准化n测量距离使用默认的欧氏平方距离即可测量距离使用默认的欧氏平方距离即可

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁