《统计分析软件基础教程-Insight的数据探索功能课件.ppt》由会员分享,可在线阅读,更多相关《统计分析软件基础教程-Insight的数据探索功能课件.ppt(89页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Page2内容与要求内容与要求Page3SASSAS菜单系统简介菜单系统简介InsightInsight的数据管理功能的数据管理功能InsightInsight的其他功能的其他功能InsightInsight的数据探索功能的数据探索功能Page4SAS菜单系统简介 在在SASSAS系统统计分析功能的使用中,除通过编程系统统计分析功能的使用中,除通过编程方式外,对常用的分析功能方式外,对常用的分析功能SASSAS还提供简便的菜单系还提供简便的菜单系统,使得用户不用编程就可以方便地享用统,使得用户不用编程就可以方便地享用SASSAS的许多的许多深入的统计分析功能深入的统计分析功能. .目前已提供的
2、菜单系统有:目前已提供的菜单系统有: SAS/InsightSAS/Insight:是一个进行探索性的交互式数据分是一个进行探索性的交互式数据分析的菜单系统析的菜单系统. . SAS/STATSAS/STATAnalyst ApplicationAnalyst Application:是一个为分析是一个为分析员设计的菜单系统员设计的菜单系统. . SAS/STATSAS/STATMarketing Research(Marketing Research(市场调查市场调查) ):是是一个为市场调查数据进行较深入的分析而开发的一个一个为市场调查数据进行较深入的分析而开发的一个菜单系统菜单系统. .
3、Page5 SAS/QC SQCSAS/QC SQC:(质量控制)质量控制):是为企业使用是为企业使用各种质量控制方法而提供的菜单系统各种质量控制方法而提供的菜单系统. .SAS/QC (X)ADXSAS/QC (X)ADX:是为安排各种试验和获得是为安排各种试验和获得数据后进行分析的菜单系统数据后进行分析的菜单系统. .SAS/ETS SAS/ETS 时间序列预报系统时间序列预报系统(FORECASTFORECAST):):是在运用时间序列分析中为各种建模和预测功是在运用时间序列分析中为各种建模和预测功能而开发的菜单系统能而开发的菜单系统. . 与统计分析有关的菜单系统还有与统计分析有关的菜
4、单系统还有 向导式数据分析向导式数据分析( (LAB)LAB);投资分析;投资分析; 企业数据挖掘;企业数据挖掘; 排队仿真等等排队仿真等等Page6Page7(1) (1) 在命令框键入命令在命令框键入命令(2)(2) 用下拉菜单用下拉菜单 解决方案解决方案(Solutions) (Solutions) 分析分析( (Analysis)Analysis)交互式数据分析交互式数据分析( ( Interactive Data Analysis) Interactive Data Analysis)(3) (3) 提交提交 Proc InsightProc Insight ; ;(4) (4) 建
5、立建立InsightInsight的图标的图标, ,用图标启动用图标启动. .进入进入SAS/InsightSAS/InsightPage8Page9 InsightInsight软件提供数据探索和分析中很广泛软件提供数据探索和分析中很广泛的一些方法的一些方法. .在在InsightInsight环境下的主菜单包括环境下的主菜单包括文文件件File, File, 编辑编辑Edit,Edit,分析分析Analyze,Analyze,表表Tables,Tables,图图形形Graphs,Graphs,曲线曲线Curves,Curves,变量变量VarsVars和和帮助帮助HelpHelp栏栏目,这
6、些栏目提供目,这些栏目提供InsightInsight的功能的功能. . FileFile栏目下提供打开数据集栏目下提供打开数据集, ,存贮数据集、存贮数据集、分析结果的表格和图形的管理分析结果的表格和图形的管理. . EditEdit栏目下提供对打开数据集中的变量、栏目下提供对打开数据集中的变量、观测进行增删观测进行增删, ,设定数据显示格式和窗口管理设定数据显示格式和窗口管理 功能功能. .SAS/InsightSAS/Insight的功能的功能Page10 AnalyzeAnalyze栏目下提供分析和作图的功能栏目下提供分析和作图的功能. .分析功能分析功能包括分布的拟合检验、线性模型包
7、括分布的拟合检验、线性模型( (含回归分析、方差分含回归分析、方差分析析LogisticLogistic回归等回归等) )、多变量分析三大类、多变量分析三大类. . TablesTables栏目下提供显示分析结果的各种表格功能栏目下提供显示分析结果的各种表格功能. . GraphsGraphs栏目下提供生成与分析有关的各种图形,栏目下提供生成与分析有关的各种图形,包括直方图、盒形图、马赛克包括直方图、盒形图、马赛克( (mosaic) mosaic) 图、线图和三图、线图和三维旋转图等维旋转图等. . CurvesCurves栏目下提供与分析有关的各种曲线栏目下提供与分析有关的各种曲线. .包
8、括拟包括拟合的分布密度函数和经验累计分布函数图、分位数合的分布密度函数和经验累计分布函数图、分位数- -分位数图分位数图( (Q Q- -Q Q图图) )等等. . VarsVars栏目下提供由分析结果形成新的变量栏目下提供由分析结果形成新的变量. .Page11SAS/InsightSAS/Insight的帮助信息提供十分广泛的内容的帮助信息提供十分广泛的内容. .用户用户可以通过可以通过HelpHelp系统来得到帮助信息系统来得到帮助信息.Help(.Help(帮助帮助) )的下的下拉菜单拉菜单( (见左下图见左下图) ) 如下:如下: 选定对象的帮助选定对象的帮助( (Help on H
9、elp on Selection)/:Selection)/:提供与加亮区或内提供与加亮区或内容有关的帮助信息容有关的帮助信息. . 介绍介绍(Introduction):(Introduction):学习学习 SAS/InsightSAS/Insight软件的导引软件的导引. . 技巧技巧( (Techniques):Techniques):学习如何学习如何执行一项特殊任务,比如数据输执行一项特殊任务,比如数据输入、坐标轴和标尺调整等入、坐标轴和标尺调整等. .SAS/InsightSAS/Insight的功能的功能-帮助信息帮助信息Page12 参考(参考(ReferenceReferen
10、ce):可以浏览由下拉菜单列出与可以浏览由下拉菜单列出与SAS/InsightSAS/Insight系统有关的详细信息系统有关的详细信息. . 索引(索引(IndexIndex):可快速查看可快速查看SAS/InsightSAS/Insight专题的专题的索引索引. . SASSAS系统(系统(SAS SystemSAS System):查看查看SASSAS系统专题的一系统专题的一般索引般索引. . 创建样本创建样本(Create SamplesCreate Samples):在在SASUSERSASUSER库中库中建立样本数据集建立样本数据集( (即本使用手册所涉及的即本使用手册所涉及的)
11、),执行过程,执行过程的有关信息可从的有关信息可从LOGLOG窗查看窗查看. .Page13对数据集的操作对数据集的操作Page14输入数据或打开数据集输入数据或打开数据集Page15Page16逻辑库逻辑库(Library)(Library)数据集数据集(Data Set)(Data Set) 数据窗口的左上角给出变量个数和观测个数数据窗口的左上角给出变量个数和观测个数; ;每每个观测有一个观测序号个观测有一个观测序号, ,序号前的符号及颜色表示该序号前的符号及颜色表示该观测在作图时使用的符号和颜色;数据表上方除了给观测在作图时使用的符号和颜色;数据表上方除了给变量名外变量名外, ,还标明每
12、个变量的类型是区间型还标明每个变量的类型是区间型( (IntInt) )或是或是名义型名义型(Nom)(Nom);及每个变量的作用(角色)及每个变量的作用(角色). .Page17第二章第二章变量名变量名观观测测个个数数变量个数变量个数数据窗菜单数据窗菜单观测序号观测序号绘图符号和颜色绘图符号和颜色变量类型变量类型变量的作用变量的作用Page181.1. 查找下一个查找下一个(Find Next)(Find Next):翻卷翻卷数据窗口到下一个被选中的观测数据窗口到下一个被选中的观测 . .若没有被选中的观测,则翻卷到当若没有被选中的观测,则翻卷到当前的下一个观测前的下一个观测. .2.2.
13、移至第一个移至第一个(Move to First)(Move to First):将选中的观测或变量分别移至数据将选中的观测或变量分别移至数据窗口的第一行或第一列窗口的第一行或第一列. .3.3. 移至最后移至最后(Move to Last)(Move to Last):将选将选中的观测或变量分别移至数据窗口中的观测或变量分别移至数据窗口的最后一行或最后一列的最后一行或最后一列. .窗口菜单窗口菜单浏览数据浏览数据Page19 当数据窗口中变量较多时,可以用滚动当数据窗口中变量较多时,可以用滚动条滚动窗口内容来查看。如果某个变量比较条滚动窗口内容来查看。如果某个变量比较重要,可以考虑把它放到第
14、一列的位置,这重要,可以考虑把它放到第一列的位置,这只要先单击该变量的名字选中它,然后在数只要先单击该变量的名字选中它,然后在数据窗的菜单中选据窗的菜单中选 移至第一个移至第一个(Move to FirstMove to First)要把某列移到最后要把某列移到最后,选中它后用选中它后用 移至最后(移至最后(Move to LastMove to Last)Page20 选中一列只要单击其变量名。如果要选选中一列只要单击其变量名。如果要选中多个列,在选中一个后按住中多个列,在选中一个后按住CtrlCtrl键单击其键单击其它列的名字可以添加选中的其它变量。选中它列的名字可以添加选中的其它变量。选
15、中一个变量后按住一个变量后按住ShiftShift单击另一个变量名则表单击另一个变量名则表示选中这两个变量及它们之间的所有变量。示选中这两个变量及它们之间的所有变量。选中的多个列也可以用选中的多个列也可以用移至第一个移至第一个(Move toMove to FirstFirst)和和移至最后(移至最后(Move to LastMove to Last)菜单项菜单项来移动。来移动。要取消所有选中,只要单击某一单元格而要取消所有选中,只要单击某一单元格而不是行、列标题即可。不是行、列标题即可。 Page21 要选中一个观测(行),只要单击其观测序号要选中一个观测(行),只要单击其观测序号(行号)。
16、选多个观测可以用(行号)。选多个观测可以用CtrlCtrl单击或单击或ShiftShift单击单击的方法。选中的观测也可以用的方法。选中的观测也可以用移移至至第一个第一个(Move to Move to FirstFirst)和和移移至至最后(最后(Move to LastMove to Last)移动到最前或移动到最前或最后。最后。 还可以选中某些列同时选中某些行。只要在后还可以选中某些列同时选中某些行。只要在后续的选中操作时用添加选中(续的选中操作时用添加选中(ShiftShift单击或单击或CtrlCtrl单击)单击)即可。用鼠标在数据窗口数值显示部分拖出一个方即可。用鼠标在数据窗口数值
17、显示部分拖出一个方框也可以选定一部分数值框也可以选定一部分数值。 选定了列或者行以后,用选定了列或者行以后,用 编辑(编辑(EditEdit)=删除删除(DeleteDelete)菜单可以删除选定的列或行。菜单可以删除选定的列或行。 窗口菜单窗口菜单整理数据整理数据Page22 通过使用通过使用手动工具手动工具( (hand tool),hand tool),用户可以把某变用户可以把某变量(或某个行)移到不同的位置上量(或某个行)移到不同的位置上( (不一定是第一列不一定是第一列或最后一列或最后一列) )。步骤如下:步骤如下: 选择选择编辑编辑( (Edit)Edit)窗口(Windows)
18、(Windows) 工具(Tool)(Tool)浏览数据浏览数据手动工具手动工具Page23则显示一工具窗口则显示一工具窗口( (见右图见右图) )。 用鼠标单击在工具窗口上用鼠标单击在工具窗口上方的方的“手动手动”工具项上。这时工具项上。这时光标变成一只手的形状。移动光标变成一只手的形状。移动这只手到变量(如这只手到变量(如AGEAGE)名字或)名字或某个行的序号(如序号某个行的序号(如序号5 5)上。)上。 按下鼠标左键并按住它,按下鼠标左键并按住它,这时有一个虚线的矩形作为变这时有一个虚线的矩形作为变量列(或观测行)的轮廓出现。量列(或观测行)的轮廓出现。Page24 拽这个矩形,并把它
19、放到变量拽这个矩形,并把它放到变量NAME(NAME(第第一个变量一个变量) )和和SEXSEX( (第二个变量第二个变量) )之间的分界线之间的分界线上;或某二行上;或某二行( (如第如第1010和和1111行行) )间的分界线上。间的分界线上。 释放鼠标左键,则变量释放鼠标左键,则变量AGEAGE变为数据窗变为数据窗口中的第二个变量;或者第口中的第二个变量;或者第5 5号观测变为第号观测变为第1010号观测。号观测。 用鼠标单击在工具窗口上方的用鼠标单击在工具窗口上方的“箭头箭头”工具项上,这时光标还原为原来形状。工具项上,这时光标还原为原来形状。Page25窗口菜单窗口菜单数据排序数据排
20、序Page26Page27将显示对话窗(见下页)。将显示对话窗(见下页)。窗口菜单窗口菜单整理数据整理数据Page28 用户可以用户可以设置变量类型设置变量类型、缺省时的角、缺省时的角色、量测水平色、量测水平、名字和标签、名字和标签. .在这一对话窗在这一对话窗内,用户可以内,用户可以改变一个变量改变一个变量或几个变量的或几个变量的名字等属性名字等属性. .Page29修改该数据窗口中某个选中变量或观测的数据值,它对修改该数据窗口中某个选中变量或观测的数据值,它对生成常数或以常数为增量的等差数列变量值是特别方便的生成常数或以常数为增量的等差数列变量值是特别方便的. . 先选定一个数值型变量,用
21、此命令,将先选定一个数值型变量,用此命令,将弹出一个对话框要求输入起始值弹出一个对话框要求输入起始值( (Value)Value)和和增量增量( (Increment),Increment),比如起始值填比如起始值填1,1,增量填增量填10,10,则此变量的在各观测中的值分别填入为则此变量的在各观测中的值分别填入为1 1,1111,2121,。Page30 从已存在的数据窗口抽取某些列从已存在的数据窗口抽取某些列( (变量变量) )或行或行( (观测观测) )的数的数据子集来生成新的数据窗口据子集来生成新的数据窗口. . 此项功能很强,它可以把选定的部分行,部分此项功能很强,它可以把选定的部分
22、行,部分列或者部分行和列抽取出来生成另一个新的数据窗列或者部分行和列抽取出来生成另一个新的数据窗口。比如在口。比如在CLASSCLASS中先选定所有男生的观测,再用添中先选定所有男生的观测,再用添加选择(加选择(ShiftShift或或CtrlCtrl单击)的办法选定单击)的办法选定NAMENAME,AGEAGE和和WEIGHTWEIGHT变量,然后用此命令,可以抽取出一个名变量,然后用此命令,可以抽取出一个名为为SASUSER.CLASS1SASUSER.CLASS1的的数据窗口,此数据窗口中只有数据窗口,此数据窗口中只有姓名,年龄和体重三列及男生的观测行。姓名,年龄和体重三列及男生的观测行
23、。Page31Page32文件文件(File) 保存保存(Save) 数据数据(Data)Page33 在数据选项窗口:在数据选项窗口: 用户可以选择数据用户可以选择数据表用变量名或变量表用变量名或变量的标签显示;的标签显示; 还可以选择还可以选择Enter Enter ( (回车回车) )的方向(如的方向(如向下)和向下)和TabTab的方向的方向(如为向右(如为向右) )。设置控制数据窗口外观和操纵的选项设置控制数据窗口外观和操纵的选项. .Page34 在数据窗口中如果需要修改某一个在数据窗口中如果需要修改某一个值或几个值,只要直接用鼠标点到其单值或几个值,只要直接用鼠标点到其单元格修改
24、,然后按回车键就实现了修改元格修改,然后按回车键就实现了修改。在单元格之间移动可以用鼠标单击、。在单元格之间移动可以用鼠标单击、制表键制表键(Tab)(Tab)、回车、上下光标键等方、回车、上下光标键等方法。法。 Page35 在在SASSAS数据集中,变量分为字符型和数值型数据集中,变量分为字符型和数值型. .在在InsightInsight中,为了区分变量在分析中的不同中,为了区分变量在分析中的不同作用,变量又按其测量水平分为区间型作用,变量又按其测量水平分为区间型(interval)(interval)和名义型或列名型和名义型或列名型(nominal).(nominal).对对于字符变量
25、系统自动地设置为名义型;而对于字符变量系统自动地设置为名义型;而对数值变量系统自动地设置为区间型数值变量系统自动地设置为区间型. .如果某个如果某个数值变量在分析中将作为分类变量,进行分数值变量在分析中将作为分类变量,进行分析之前应先设置该变量为名义型析之前应先设置该变量为名义型(Nominal).(Nominal).整理数据设置测量水平整理数据设置测量水平Page36数值型数值型 字符型字符型区间型区间型名义型以连续变化尺度测量具有以连续变化尺度测量具有可进行分析的数值变量可进行分析的数值变量有数值或字符值有数值或字符值用于作分类变量用于作分类变量SASSAS变量变量Page37 设置变量的
26、测量水平有两种方法:设置变量的测量水平有两种方法:(1)(1)在在数据窗菜单数据窗菜单中用中用定义变量菜单项定义变量菜单项在对在对话框里规定所选中变量的测量水平;话框里规定所选中变量的测量水平;(2)(2)在数据窗口所选中变量名字的上方显示在数据窗口所选中变量名字的上方显示该变量默认的测量水平。如果需要修改默认该变量默认的测量水平。如果需要修改默认的测量水平,在该处点击鼠标右键,从显示的测量水平,在该处点击鼠标右键,从显示的 两 种 测 量 水 平 选 中 所 需 要 的 区 间 型的 两 种 测 量 水 平 选 中 所 需 要 的 区 间 型(interval)(interval)或名义型或
27、名义型(nominal).(nominal).Page38 如果用户想对已打开的数据窗口再创建一如果用户想对已打开的数据窗口再创建一些新变量,有以下几种方法:些新变量,有以下几种方法: (1)由由数据窗菜单数据窗菜单的的菜单项新变量菜单项新变量(New Variables)来插入新变量;来插入新变量; (2) 通过通过 编辑(编辑(Edit)变量(Variables)由由生成新变量的计算公式来创建新变量;生成新变量的计算公式来创建新变量; (3) 在统计分析过程中,如果用户想把分析计在统计分析过程中,如果用户想把分析计算的统计量添加到数据集中,分析计算后通算的统计量添加到数据集中,分析计算后通
28、过主菜单项变量过主菜单项变量(Vars)选择统计量作为数选择统计量作为数据集的新变量据集的新变量.整理数据创建新变量整理数据创建新变量Page39 有时用户想寻找某个变量具有共同特性的观测。例如在有时用户想寻找某个变量具有共同特性的观测。例如在CLASSCLASS数据集中,为了寻找所有男生。步骤以下数据集中,为了寻找所有男生。步骤以下( (使用使用CLASSCLASS数数据集,假定据集,假定NAMENAME变量放在第一列变量放在第一列) ): 选择选择编辑(Edit)(Edit)观测(Observations )(Observations )查找查找(Find(Find) )则显示则显示查找观
29、测(Find ObservationsFind Observations)对话窗对话窗( (见下图见下图) )。整理数据查找观测Page40 选择变量选择变量SEXSEX( (记录性别记录性别) )。用鼠标左键点击。用鼠标左键点击查找查找观测观测对话窗左边的对话窗左边的CLASSCLASS集变量列表中的集变量列表中的变量变量SEXSEX,表示选中它表示选中它。在上图中,对话窗右在上图中,对话窗右边的边的值值(Value(Value) )列表中列出了变量列表中列出了变量SEXSEX的所有取的所有取值;并用上图对话窗值;并用上图对话窗中间检查中间检查(Test(Test) )的等号的等号(=)(=
30、)来选择来选择SEXSEX等于右边等于右边ValueValue表中第二个值表中第二个值( (即即“M M”) )的观测。的观测。 选择选择SEXSEX的的值值(Value(Value) )为为“M M”。如果选多个。如果选多个值,值,可以通过可以通过Shift+Shift+击或击或CTRL+CTRL+击来选择这些击来选择这些值值。Page41 用鼠标击在用鼠标击在应用应用(Apply)(Apply)按钮上来寻找符按钮上来寻找符合条件的中学生所对应的观测。此时选择观测合条件的中学生所对应的观测。此时选择观测时并没有关闭查找观测对话窗。当选择符合条时并没有关闭查找观测对话窗。当选择符合条件的观测后
31、,若点击在件的观测后,若点击在确定确定(OK)(OK)按钮上,则关按钮上,则关闭查找观测对话窗。至此,闭查找观测对话窗。至此,SEX=SEX=M M的所有观的所有观测被加亮。测被加亮。 从数据窗菜单上选择从数据窗菜单上选择查查找下一个找下一个(Find Next)(Find Next) 数据窗口将往下滚动,使得具有数据窗口将往下滚动,使得具有SEX=SEX=M M 的观测移到数据窗口的顶部。的观测移到数据窗口的顶部。Page42 从数据窗菜单选择从数据窗菜单选择移至第一个移至第一个(Move to (Move to First)First)。允许用户把选择的观测集中在一起查允许用户把选择的观测
32、集中在一起查看,即所有选择的观测都移到数据窗口的开始看,即所有选择的观测都移到数据窗口的开始位置。位置。 从数据窗菜单选择从数据窗菜单选择抽取,抽取,可以抽取出一个可以抽取出一个名为名为CLASS1CLASS1的的数据窗口,此数据窗口中只有包数据窗口,此数据窗口中只有包含男生所的观测行。含男生所的观测行。 可把查找后抽取出来的观测存贮为可把查找后抽取出来的观测存贮为SASSAS数数据集,以备后用。据集,以备后用。Page43 在数据窗口,为了存贮输入的数据或修改在数据窗口,为了存贮输入的数据或修改后的新数据窗口的数据:后的新数据窗口的数据: 选选文件文件(File)(File) 保存(Save
33、) 数据(Data)保存数据保存数据Page44则显示以下的则显示以下的保存数据保存数据( (Save Data)窗口窗口. .首先选择存首先选择存贮数据的逻辑库贮数据的逻辑库( (如如WORK),WORK),并输入数据集的名字并输入数据集的名字, ,然然后按后按确定确定(OK)(OK)即完成新数据窗口中数据的保存即完成新数据窗口中数据的保存. .Page45练 习 题1 1、浏览数据表:、浏览数据表: 数据集数据集DST.FITNESSDST.FITNESS记录了某健身俱乐部客户的基记录了某健身俱乐部客户的基本数据本数据 (1) (1) 用用InsightInsight打开数据集打开数据集D
34、ST.FITNESS, ,浏览该数据浏览该数据集。该数据集有多少个变量,多少个观测值?变量是集。该数据集有多少个变量,多少个观测值?变量是否使用标签否使用标签? ?Page46 (2) (2) 把变量把变量AgeAge移到数据表的第二列移到数据表的第二列, ,而变量而变量groupgroup移到数据表的第三列移到数据表的第三列; ; (3) (3) 对以下变量确定其类型和测量水平:对以下变量确定其类型和测量水平: 变量变量 类型类型 测量水平测量水平 RUNTIME RUNTIME RUNPULSE RUNPULSE (4) (4) 对变量对变量GROUPGROUP加上标签名加上标签名 “客户
35、分组客户分组”. .Page472 2、数据集排序、数据集排序: : (1) (1) 按变量按变量OXYGENOXYGEN对数据集从大到小重新排序对数据集从大到小重新排序; ; (2) (2) 按变量按变量GROUPGROUP和和OXYGEN排序,找出各种排序,找出各种GROUP中中OXYGEN最大的数值。最大的数值。3 3、建立新变量、建立新变量: : 创建一个名为创建一个名为RATIORATIO的新变量,其值等于的新变量,其值等于OXYGEN与与RUNTIMERUNTIME的比,并在其标签名中注明的比,并在其标签名中注明. .4 4、创建数据集的子集:、创建数据集的子集: 将数据集中的所有
36、将数据集中的所有oxygenoxygen大于大于5050的客户抽取出来的客户抽取出来,生成新的数据集,并把它另存为,生成新的数据集,并把它另存为WORK.maxoxygenWORK.maxoxygen. .Page48Insight的数据探索功能 InsightInsight除完成数据管理及基本统计分析的除完成数据管理及基本统计分析的功能外,还有非常强的图形功能,可以绘制如功能外,还有非常强的图形功能,可以绘制如直方图或条形图、盒形图或散布图、连线图、直方图或条形图、盒形图或散布图、连线图、等高线图、旋转图等,进一步地还有分布拟合等高线图、旋转图等,进一步地还有分布拟合和检验和检验( (Dis
37、tribution) )、线性模型的拟合、线性模型的拟合( (Fit) )和多变量分析和多变量分析(multivariate). 重点介绍用重点介绍用Insight进行数据探索的图形功进行数据探索的图形功能能.Page49数据探索的一维方法数据探索的一维方法直方图或条形图直方图或条形图 SAS/InsightSAS/Insight提供了十分方便的数据探索功能提供了十分方便的数据探索功能. .对一维数据对一维数据, ,可以作直方图、盒形图、马赛克图可以作直方图、盒形图、马赛克图, ,对对二维数据二维数据, ,可以作散点图、曲线图、散点图矩阵可以作散点图、曲线图、散点图矩阵, ,对对三维数据可以作
38、旋转图三维数据可以作旋转图( (三维散点图三维散点图).).在图上可以选在图上可以选定一些观测定一些观测, ,这些选择结果会同时反映在数据窗口和这些选择结果会同时反映在数据窗口和其它图中其它图中. . 以以SASUSER.CLASSSASUSER.CLASS数据集为例数据集为例. .选定变量选定变量EIGHTEIGHT,由由 分析分析(AnalyzeAnalyze)直方图直方图/ /条形图条形图Histogram/Bar Histogram/Bar Charts(YCharts(Y) ))菜单可以打开一个图形)菜单可以打开一个图形窗口生成身高的分布直方图(也称柱状图)窗口生成身高的分布直方图(
39、也称柱状图). . Page50Page51 直方图的每一个条形代表了绘图变量(直方图的每一个条形代表了绘图变量(HEIGHTHEIGHT)在一个区间范围内的取值情况在一个区间范围内的取值情况, ,比如比如144144到到152152之间的之间的条形代表身高在条形代表身高在144144到到152152厘米的人厘米的人, ,条形高度为该组条形高度为该组频数频数, ,即取值在这一区间内的观测个数即取值在这一区间内的观测个数, ,可以看出这一可以看出这一组只有组只有9 9个学生个学生. .单击这一条形选中在此范围的观测单击这一条形选中在此范围的观测, ,可以发现这时数据窗口的相应观测也被选定了可以发
40、现这时数据窗口的相应观测也被选定了. .如果如果双击某一条形双击某一条形, , 就可以在选定相应观测的同时弹出一就可以在选定相应观测的同时弹出一个检查观测窗口个检查观测窗口, ,窗口中显示各被选中的观测序号窗口中显示各被选中的观测序号, ,以以及其中一个观测的各变量值及其中一个观测的各变量值. .这样可以很方便地检查这样可以很方便地检查图中各部分所对应的观测图中各部分所对应的观测. .为取消选定为取消选定, ,只要在图中空只要在图中空白处单击即可白处单击即可. .Page52 绘制的图形有一个方框包围绘制的图形有一个方框包围. .如果想改变图形大小如果想改变图形大小, ,可以单击方框使其变粗,
41、然后拖动四个角中的一个可以单击方框使其变粗,然后拖动四个角中的一个, ,就可以把图形放大或缩小就可以把图形放大或缩小. .甚至还可以把一个角向其甚至还可以把一个角向其对角方向拖动一直拖过对角,这样可以改变图形的横对角方向拖动一直拖过对角,这样可以改变图形的横纵轴方向纵轴方向. . 拖动边框可以把图形移动到窗口内其它位置拖动边框可以把图形移动到窗口内其它位置. .图形图形中提供了一个设置菜单中提供了一个设置菜单, ,可以单击图形边框左下角上可以单击图形边框左下角上的向右箭头的向右箭头( ()或在图形内单击右键来打开)或在图形内单击右键来打开. .Page53第二章第二章 菜单内容包括菜单内容包括
42、刻度刻度( (Ticks),Ticks),可以设可以设置坐标轴的具体刻度;置坐标轴的具体刻度;轴轴( (Axes)Axes)用用来指定画不画坐标轴;来指定画不画坐标轴;观测观测( (Observations)Observations)用来指定是否画观用来指定是否画观测;测;值值( (Values)Values)指定是否标出各条指定是否标出各条形高度值(即频数)形高度值(即频数). .Page54 对连续数据对连续数据( (IntInt型型) )作直方图可以反映其分布情况,作直方图可以反映其分布情况,对离散数据对离散数据(Nom(Nom型型) )作直方图同样可以反映其分布,作直方图同样可以反映其
43、分布,即取每一个离散值的频数分布即取每一个离散值的频数分布. .比如比如, ,在绘制身高的在绘制身高的直方图后直方图后, ,选定变量选定变量AGE,AGE,并修改变量并修改变量AGEAGE的类型为名的类型为名义型义型( (Nom)Nom)后后对其作直方图对其作直方图, ,则结果打开一个新图形则结果打开一个新图形窗口作出有窗口作出有6 6个条形的条形图个条形的条形图, ,分别为年龄从分别为年龄从1212至至1717的学生人数的学生人数. .如选中如选中( (单击单击) )年龄为年龄为1515的条形的条形, ,可以看可以看到数据窗口中所有到数据窗口中所有AGE=15AGE=15的观测被选定的观测被
44、选定. . 另外还可以看到已作的身高的直方图也发生了变另外还可以看到已作的身高的直方图也发生了变换,身高的条形中有一部分被选中换,身高的条形中有一部分被选中( (颜色变亮颜色变亮),),加亮加亮的这一部分表示年龄为的这一部分表示年龄为1515岁在身高中的分布岁在身高中的分布. .Page55Page56 在用在用分析分析( (AnalyseAnalyse) )菜单中的作图命令作菜单中的作图命令作图时如果没有选定的变量则弹出一个对话框提图时如果没有选定的变量则弹出一个对话框提问用哪一个变量作图问用哪一个变量作图. .如果对身高作图如果对身高作图, ,只要选只要选中中 HEIGHT,HEIGHT,
45、然后按然后按Y钮即可钮即可. .Page57 如果在以上对话窗中还选中如果在以上对话窗中还选中SEXSEX作为分组变量,作为分组变量,则将分别对男生和女生生成如下并排的直方图则将分别对男生和女生生成如下并排的直方图. .Page58数据探索的一维方法数据探索的一维方法盒形图或马赛克图盒形图或马赛克图 盒形图是另一种表现数值型变量分布的图形盒形图是另一种表现数值型变量分布的图形. .例如例如要绘制身高分布的盒形图要绘制身高分布的盒形图, ,选中变量选中变量HEIGHT,HEIGHT,然然后由后由 分析分析( (Analyze)Analyze) 盒形图盒形图/ /马赛克图马赛克图( (Box Pl
46、ot/Mosaic Box Plot/Mosaic Plot(YPlot(Y)菜单可以打开一个图形窗口生成身高分布的盒形图菜单可以打开一个图形窗口生成身高分布的盒形图. . 从图形菜单中选值从图形菜单中选值(Values)(Values)和均值和均值( (Means),Means),则将则将显示如左图的一个显示如左图的一个盒盒形形图并图并在在图中标出重要数据值图中标出重要数据值. .Page59Page60 盒形图的纵轴代表身高的取值范围。盒形的中盒形图的纵轴代表身高的取值范围。盒形的中间有一条粗线,这是变量分布的间有一条粗线,这是变量分布的的位置,盒的位置,盒子上边线是分布的子上边线是分布的
47、,下边线是分布的,下边线是分布的,盒子上下边线包含了分布的中间,盒子上下边线包含了分布的中间50%50%的观的观测测. .盒子的长度叫做分布的盒子的长度叫做分布的,其作用类似于,其作用类似于标准差,可以反映数据分布的分散程度标准差,可以反映数据分布的分散程度. .从盒子边线从盒子边线向外画了两条线叫做向外画了两条线叫做,最长可以延伸到四分,最长可以延伸到四分位差的位差的1.51.5倍,但是如果已经到了数据的最小值或最倍,但是如果已经到了数据的最小值或最大值处就不再延伸大值处就不再延伸. .如果触须线没有达到数据的极值如果触须线没有达到数据的极值点,则这些极端的数据点用触须线以外的点画出,点,则
48、这些极端的数据点用触须线以外的点画出,一般认为这样的点是一般认为这样的点是异常点异常点. .Page61 从盒形图可以看出数据的偏斜情况,比如我们从盒形图可以看出数据的偏斜情况,比如我们看到盒子的下半部比上半部长,而且下触须线比上看到盒子的下半部比上半部长,而且下触须线比上触须线长,说明身高分布略左偏触须线长,说明身高分布略左偏. . 用盒形图菜单中的用盒形图菜单中的选项可以在盒形选项可以在盒形图上加画一个菱形,菱形的中间代表变量分布的均图上加画一个菱形,菱形的中间代表变量分布的均值,值,均值和中位数的比较也能反映变均值和中位数的比较也能反映变量的偏斜情况,平均值低于中位数可能左偏量的偏斜情况
49、,平均值低于中位数可能左偏. . 单击或双击盒形图的某一部分单击或双击盒形图的某一部分( (盒子上半部或下盒子上半部或下半部、触须线、极端值半部、触须线、极端值) )可以选定观测可以选定观测. .Page62 盒形图还可以很直观地比较按某分组变量分组后盒形图还可以很直观地比较按某分组变量分组后的分布情况的分布情况. .比如比如, ,如果我们想看一看男女的身高分布如果我们想看一看男女的身高分布有何异同有何异同, ,先不选中任何变量先不选中任何变量, ,而是由菜单而是由菜单 在弹出选择变量的对话窗中选身高为在弹出选择变量的对话窗中选身高为Y变量,选性别变量,选性别为为X变量,画出的盒形图如下变量,
50、画出的盒形图如下( (在同一张图里,便于在同一张图里,便于比较比较). ). 如果在弹出选择变量的对话窗中选身高为如果在弹出选择变量的对话窗中选身高为Y变量变量, ,而选性别为分组变量而选性别为分组变量, ,则将绘制出的两张分开的盒形则将绘制出的两张分开的盒形图图. . Page63Page64 图中有两个盒形图,女生一个,男生一个图中有两个盒形图,女生一个,男生一个. .从图中看出,男生身高普遍高于女生,且女生从图中看出,男生身高普遍高于女生,且女生身高分布左偏较男生严重身高分布左偏较男生严重. .这种并排盒形图可这种并排盒形图可以十分直观地比较不同性别身高的分布以十分直观地比较不同性别身高