第01章数据描述性分析.ppt-淘文阁

资源描述

《第01章数据描述性分析.ppt》由会员分享，可在线阅读，更多相关《第01章数据描述性分析.ppt（155页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第一章数据描述性分析宁波大学商学院数据分析的基本内容数据描述性分析非参数方法回归分析主成分分析判别分析聚类分析时间序列分析Bayes统计分析SAS软件介绍Colin随着信息技术的迅速发展-特别是数据仓库技术的广泛应用，企业拥有的数据量急剧呈几何级数增大，在这大量的数据信息中，隐藏着企业运作的利弊得失，若能够对这种海量的数据与信息进行快速有效地深入分析和处理，就能从中找出规律和模式，获取企业决策所需知识，帮助企业进行迅速有效的运筹决策。SAS软件介绍Colin美国SAS软件研究所(SASInstituteInc.)创建于1976年。27年来，SAS软件研究所一直致力于为金融、医药研发、保险、电信

2、、制造、政府以及科研教育等部门，在SAS的数据仓库,统计分析、联机分析处理系统,数据挖掘,Intranet和各种瘦客户端的核心产品和技术之上，为各种企业提供客户关系管理、信贷风险分析和管理、企业综合风险管理、数据仓库、协作式商务智能、企业均衡记分卡（BalancedScoreCard)、电子商务智能、供应关系管理、财务分析和报告、人力资源管理和其它各种商务智能和决策支持系统(DSS)的解决方案。SAS软件在数据处理与统计分析领域，SAS系统已成为国际上流行标准企业管理软件。美国财富杂志评选的500家最大公司中的90%以上的企业都在应用SAS软件。在北美，SAS广泛地被用于所有的金融公司，医药研

3、发机构和政府调查和监管部门。特别是在加拿大的金融中心-多伦多，每年更是需要大量熟练掌握和运用SAS的科技人员。SAS软件 SAS 是一个是一个庞大的系大的系统，它多个功能模，它多个功能模块组成，每个模成，每个模块分分别完成不同的功能。由于完成不同的功能。由于SAS最最初是初是为专业统计人人员设计的（的（这一点和一点和SPSS已已恰恰相反），因此使用上以恰恰相反），因此使用上以编程程为主，初学者掌主，初学者掌握握较为困困难。SAS软件SAS公司统计分析的强大优势和完美的数据挖掘产品，可以帮助用户：Customer Segmentation-识别最有利润的客户群，并揭示其中的特征 Credit R

4、isk Management-通过准确的信用评分提高客户的利润率 Balanced Scorecard-企业均衡计分管理 Fraud Detection-欺诈检测 Customer Retention-客户流失管理 Cross Selling-组合销售以及其他需要预测和规则发现的应用等等 SAS的宗旨是为所有需要进行数据处理、数据分析的非计算机工作人员提供一种易学易用、完整可靠的软件系统。SAS语言本身是一种非过程语言（第四代语言），类似于C语言，且综合了各种高级语言的功能和灵活的格式，将数据处理和统计分析融合于一体。SAS系统的启动和退出启动1双击桌面图标2执行开始菜单中程序菜单项程序编辑

5、窗口，F5输出窗口，F7日志窗口，F6显示管理系统的基本窗口在程序编辑窗口中，你可以1输入、编辑和提交程序语句2打开以前储存的程序3将程序存入文件显示管理系统的基本窗口在日志窗口中，你可以看到你提交的程序执行过程中系统产生的一些信息在输出窗口中，你可以浏览当前的SAS程序产生的输出结果SAS模块SAS8.2的完整版本包含以下数十个模块。BASE，GRAPH，ETS，FSP，AF，OR，IML，SHARE，QC，STAT，INSIGHT，ANALYST，ASSIST，CONNECT，CPE，LAB，EIS，WAREHOUSE，PCFileFormats，GIS，SPECTRAVIEW，SHARE

6、*NET，R/3，OnlineTutor:SASProgramming，MDDBServer，ITServiceVisionClient，IntrNetComputeServices，EnterpriseReporter，MDDBServercommonproducts，EnterpriseMiner，AppDevStudio，IntegrationTechnologies等常用的模块有base，graph，stat，insight，assist，analyst模块等，分别执行基本数据处理、绘图、统计分析、数据探索、可视化数据处理等功能。SAS系统的启动和退出退出1选择关闭按钮；2执行菜单命令

7、【File】【Exit.】；3在命令框执行BYE或ENDSAS命令数据描述性分析数据分析研究的对象是数据，它们是个观测值：如果这个观测值就是所要研究对象的全体，那么数据分析的任务就是提取数据中包含的有用的信息。如果数据是从总体中抽出的样本，就要分析推断样本中包含的总体的信息。,均值、方差等数字特征一元数据的数字特征主要是以下几种。设个观测值为其中称为样本容量。1均值：即是的平均数：均值表示数据的集中位置。(matlabmean函数)均值、方差等数字特征2方差、标准差与变异系数方差是描述数据取值分散性的一个度量，其量纲是数据量纲的平方。标准差均值、方差等数字特征变异系数：刻画数据相对分散性的度量

8、 CV校正平方和CSS未校平方和 USS 均值、方差等数字特征3偏度与峰度偏度与峰度是刻画数据的偏态、尾重程度的度量。它们与数据的矩有关。数据的矩分为原点矩与中心矩。k阶原点矩K阶中心矩均值、方差等数字特征偏度其中s是标准差。偏度是刻画数据对称性的指标。关于均值对成的数据其偏度为0，右侧更分散的数据偏度为正，左侧更分散的数据偏度为负。偏度频频数数频频数数频频数数偏向左偏向左 0均值、方差等数字特征峰度当数据的总体分布为正态分布时，峰度近似为0；当分布较正态分布的尾部更为分散时，峰度为正，否则峰度为负。当峰度为正时，两侧极端数据较多；当峰度为负时，两侧极端数据较少。总体的数据特征设观测数据是由总

9、体X中取出的样本，总体的分布函数是F 。当X为离散分布时，总体的分布可由概率分布列刻画：总体为连续分布时，总体的分布可由概率密度刻画。连续分布中最重要的是正态分布，它的概率密度及分布函数分别为总体的数据特征具有正态分布的总体成为正态总体。总体的数据特征与样本数字特征对应的是总体的数字特征总体均值总体方差总体标准差总体变异系数总体的数据特征总体原点矩（k阶）总体中心矩（k阶）总体偏度总体峰度偏度为正的概率密度偏度为负的概率密度f(x)f(x)xx总体峰度是以同方差的正态分布为标准，比较总体分布尾部分散性的指标。细尾，峰度为负正态分布，总体峰度为0粗尾，峰度为正总体数字特征和样本数字特征根据统

10、计学的结果，样本数字特征是相应的总体数字特征的矩估计。当总体数字特征存在时，相应的样本数字特征是总体数字特征的相合估计，从而当n较大时，有总体数字特征和样本数字特征当观测数据是所要研究对象的全体时，数据的分布即总体分布，我们认为取得每一个观测数据是等可能性的，即为；总体分布是离散均匀分布：对这种情况，数据数字特征即总体数字特征让数据本身说话。SAS系统基本操作及基本概念数据集（dataset）和库统计学的操作都是针对数据的，SAS中容纳数据的文件称为数据集，数据集又包含在不同的库（暂且理解为数据库吧）中。SAS中的库分为永久性和临时性两种。顾名思义，存在于永久库中的数据集是永久存在的（只要你不

11、去删除它），临时库中的数据集则在你退出SAS后自动被删除。至于SAS中库的概念，最简单的理解就是一个目录，一个存放数据集的目录。SAS系统基本操作及基本概念SAS程序概述SAS程序包括多个步骤和一些控制语句，一般情况下均包括数据步和过程步，一个或多个、数据步或过程步，它们之间任何形式的组合均可成为一段SAS程序，只要能完成一个完整的功能。通常情况下SAS程序还包括一些全程语句，用以控制贯穿整个SAS程序的某些选项、变量或程序运行的环境。SAS系统基本操作及基本概念SAS程序概述SAS程序的语句一般以关键字开始，以一个分号结束，一条语句可占多行SAS语句对字母的大小写不敏感，你可以根据个人习惯决

12、定字母的大写或小写。一个SAS语句有两个重要特征：1它通常由SAS关键词（keyword）开始2它总是以分号;结束SAS语句是自由格式的，也就是说1它们可以在任一列开始和结束2一个语句可以由几行组成3几个语句可以在同一行内SAS语句中的词（words）之间用空格或特殊符号分隔。SAS程序概述库名（库标记）的定义为了保存数据和方便操作起见，我习惯于指定自己的库名及其路径（目录），因为SAS系统中已有的永久库（SASUSER）无论库名还是其对应的路径都太过繁琐，使用太不方便。程序中用到的数据，都可以永久的保存于该路径下，保证以后可以重复使用。指定库名的语句为全程语句，其格式如下：Libname库名

13、路径；例如我们指定的库名为“a”，路径为：“e:data”，SAS语句如下：libnameae:data;SAS程序概述数据步SAS的数据步以data语句开始，用于创建和处理数据集。Data语句以关键字“data”开始，格式如下：data数据集名;例如：dataa.case;将创建在库a中名为case的SAS数据集，语句执行后你可在与库a对应的目录下看到刚刚建立的数据集文件case。Data语句所指定的数据集，一般都是以“库名.数据集名”的格式出现的，也可以单独的“数据集名”出现，此时的数据集系统默认为是临时库中的数据集，退出系统后将会被删除。data语句有两个重要的功能，标志数据步的开始和命

14、名将要创建的SAS数据集。除data语句外，数据步一般情况下还包括infile语句、input语句以及datalines语句等。在不同的数据输入方式下对于它们的使用方式也不一样。SAS程序概述SAS程序有两种常见的数据输入方式，即从外部文件读入和直接输入两种方式。（1）外部文件读入方式数据若已经包含在某个外部文件（文本文件或数据文件）中，可用此方法输入数据到数据集文件中。在以上介绍的data语句后，写入以下语句：infile外部文件的所在位置及名称选项;input变量名1变量名2变量名n;infile语句用于从外部文件读入数据，必须出现在input语句之前。它的功能是指定一个包含原始数据的外部

15、文件。input语句用于向系统表明如何读入每一条数据记录。它的主要功能有：读入由语句指定的数据列，为相应的数据域定义变量名，确定变量的读入模式。变量的命名变量的命名最多8个字符长，第一个字符必须是字母或者下划线，不能有空格。特殊字符(如$，#)也不允许在SAS名中使用。合法变量名如：AA1abcnameagetotalSAS系统保留的特殊变量名，以下划线开始和结尾。如：_N_和_ERROR_等。例libnameae:data;dataa.student;infilee:datastudent.txt;inputnameheightweight;以上程序将目录“e:data”下的文本文件“st

16、udent.txt”中的数据输入数据集student中，该数据集存放于目录“e:data”下。SAS程序概述（2）直接输入方式数据量较少时采用此种输入方式，在data语句之后写入如下语句：input变量名1变量名2变量名n;datalines;（在以前的版本下为cards，新版本下两者可通用）（数据行）（数据行）（数据行）;例libnameae:data;dataa.student;inputname$heightweight;（name后面的$符号表示变量name为字符型变量）datalines;Linda17151Mary16850Selina16949;以上程序将直接建立数据集文件stu

17、dent，该数据集文件存放于目录“e:data”下。MEANS过程*PROCMEANS选择项（options）VAR变量名表；指定需求计算的数值变量及次序BY变量名表；按其取值形成多个观测组，然后计算对应的描述性统计量（要求对By变量已排序）CLASS变量名表；与By类似，但不要求事前排序，结果以单表形式输出FREQ变量名表；输入数据系频数表资料时才使用OUTPUTOUT=SAS数据集统计量关键词变量名表；SAS中可以计算的描述性统计量部分关键字及其含义关键字所代表的含义n有效数据记录数nmiss缺失数据记录数mean均值std标准差var方差median中位数mode众数CV变异系数max最

18、大值SAS中可以计算的描述性统计量部分关键字及其含义关键字所代表的含义min最小值css校正的离均差平方和uss未校正的离均差平方和skew偏度kurt峰度clm可信限（上下界值）lclm可信限下侧界值uclm可信限上侧界值qrange四分位数间距例1.1从19个杆塔上的普通盘形绝缘子测得该层电导率（）的数据如下：9.898.006.406.175.397.279.0810.4011.208.756.4511.9010.309.589.247.756.208.958.33计算均值、方差、标准差、变异系数、偏度、峰度。通过计算，得8.487，3.046，1.845，CV21.745，0.035，

19、0.852，的绝对值比较小，可以认为是来自正态总体的数据。例1.3某厂的某种悬式绝缘子机电破坏负荷试验数据（单位：吨）分组表示如表，计算这批分组数据的均值、方差、标准差、变异系数、偏度、峰度。组段组中值组频数5.56.05.7546.06.56.2536.57.06.75157.07.57.25427.58.07.75498.08.58.25788.59.08.75509.09.59.25319.510.0 9.755习题1.1某克山区病测得11例克山病患者与13名健康人的血磷值（nmol/L）如表，试求两组的平均血磷值和标准差。患者组0.841.051.201.201.391.531.671

20、.801.872.072.11健康组0.540.640.640.750.760.811.161.201.341.351.481.581.87习题1.1SAS程序为datap9;dog=1to2;inputn;doi=1ton;inputx;output;end;end;Cards;110.841.051.201.201.391.531.671.801.872.072.11130.540.640.640.750.760.811.161.201.341.351.481.581.87;procmeans;varx;byg;run;统计程序univariate与统计程序means的功能大同小异，都可以

21、计算数值变量的描述性统计值但UNIVARIATE能够对变量的分配情形提供更多的信息：指出一个变量上的极端值；计算四分位数；绘制分配图；产生次数分配表；检定资料是否呈现常态分配；产生统计值输出文件，以供稍后的分析。ProcUNIVARIATEunivariate过程的一般格式procunivariate选项列表；by变量名称（分组变量）；class变量名称（分组变量）；freq变量名称（数值变量，用以表示相应记录出现的频数）weight变量名称（数值变量，用以表示相应记录的权重系数）histogram变量名称/选项列表outputvar变量名称（待分析的数值变量）；run；univariate过

22、程的一般格式在一个Univariate过程中，output指令可以多次使用，但是其他六道指令只能出现一次；这六道指令可以按任何顺序出现。procunivariate选项列表Data输入资料文件名称若省略此选项，SAS会找出在本程序之前最后形成的资料文件，并对它进行分析；Noprint若只要产生统计值的输出文件，而不想印出报表，可用此选项来抑制报表的产生；Plot产生三种图形：茎叶图或平行条状图、箱线图、常态概率图；procunivariate选项列表FREQ产生一个次数分配表，这个表包括变量值的出现次数、百分比及累积百分比；NORMAL检定输入资料是否呈现常态分配，并且输出其检定的结果；PCD

23、LDEF1/2/3/4/5此选项来决定计算百分位数的方法，默认值为4；VARDEF指令VAR变量名称串1列举需要进行描述性统计分析的变量名称；2若省略此指令，将对输入文件中所有数值变量进行分析；3若选用output指令，则不可省略var指令。指令BY变量名称；UNIVARIATE程序依据此指令所列举的变量，将文件分成几个小文件，然后就每个小文件，分别执行分析，选用此指令时，文件内的数据必须先按照BY变量串的值做由大到小的重新排列，这个步骤也可借由PROCSORT达成。指令FREQ变量名称：这个变量必须是输入文件中的一个数值变量，其值代表观察体重复出现的次数。若此变量的值含小数，则取其整数部分。

24、若其值小于1，则此观察体将被剔除在计算过程之外。中位数、分位数、三均值与极差均值、方差、标准差等数字特征是总体相应特征值的一种矩估计，更适合于来自正态分布的数据的分析。若总体的分布未知，或者数据严重偏态，有若干异常值（极端值），上述分析数据的方法不甚合适，而应计算中位数、分位数、三均值、极差等数据数字特征，计算上述特征需要用到次序统计量。次序统计量中位数与极差中位数的计算公式是中位数是描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据个数的一半。中位数与极差对于对称分布的数据，均值与中位数较接近；对于偏态分布的数据，均值与中位数不同。中位数的另一个显著特点是不受异常值（特大或

25、特小）的影响，具有稳健性，因此它是数据分析中相当重要的统计量。极差极差的计算公式是它是描述数据分散性的数字特征。数据越分散，极差越大。例1.5考虑下列样本：53113178写出次序计量，并求中位数、极差。分位数对和容量为的样本它的分位数是分位数又称为第100百分数。大体上整个样本的100的观测值不超过分位数.0.5分位数（第50百分位数）就是中位数M.在实际应用中，0.75分位数与0.25分位数（第75百分位与第25百分位数）比较重要，它们分别称为上、下四分位数，并简记为下列分位数也在实际应用中经常用到：，。例1.6考虑下列样本：53113178计算上面数据的，及，。以此类推，我们可以得到其

26、他的结果：均值与中位数M皆是描述数据集中位置的数字特征。计算时，用了样本的全部信息，而M仅用了数据分布中的部分信息。因此，在正常情况下，用比用M描述数据的集中位置为优。然而，当存在异常值时，缺乏稳健性，而M具有很强的稳健性。考虑到要充分利用样本信息，又要具有较强的稳健性，可以用三均值作为数据集中位置的数字特征。三均值的计算公式是：例1.7从19个杆塔上的普通盘形绝缘子测得该层电导率（）的数据如下：9.898.006.406.175.397.279.0810.4011.208.756.4511.9010.309.589.247.756.208.958.33计算中位数、诸分位数、极差、四分位数、三

27、均值，并分析是否有异常值。上、下截断点分别为1.29和15.05，故数据无异常值。二、数据的分布数据的数字特征刻画了数据的主要特征，而要对数据的总体情况作全面的描述，就要研究数据的分布。对数据分布的主要描述方法是直方图与茎叶图、数据的理论分布即总体分布。数据分析的一个重要问题是要研究数据是否来自正态总体，这是分布的正态性经验的问题。直方图、经验分布函数与QQ图对于数据分布，常用直方图进行描述。将数据取值的范围分成若干区间（一般是等间隔的），在等间隔区间的情况，每个区间的长度称为组距。考察数据落入每一区间的频数与频率，在每个区间上画一个矩形，它的宽度是组距，它的高度可以是频数、频率或频率/组距，

28、在高度是频率/组距的情况，每一矩形的面积恰是数据落入区间的频率，这种直方图可以估计总体的概率密度。组距对直方图的形态有很大的影响，组距太小，每组的频数较少，由于随机性的影响，邻近区间上的频数可能很大；组距太大，直方图所反映概率密度的形态就不灵敏。例1.10（1）作直方图，并拟合正态分布曲线；（2）作经验分布函数图，并拟合正态分布函数曲线；（3）作正态QQ图，并从直观上鉴别样本数据是否来自正态分布总体。茎叶图、箱线图及五数总括与直方图相比较，茎叶图更能细致地看出数据分布的结构。例1.11某班有31个学生，某门课程的考试成绩如下：2545505455616468727575787981838484

29、84858686868789898990919192100做出其茎叶图。茎叶图的特点茎叶图与直方图一样，可以直观地看出数据的分布状况。从茎叶图分析，可大致直观地看出这批数据是否接近对称，分散性如何，是否有异常值，数据中是否有间隙等等。利用茎叶图，很自然地可以对所有数据排序。从茎叶图可以看出由原始数据得到的次序统计量。对于排过序的一批数据，从小到大的每个数据的排序名次，称为升秩；而从大到小的每个数据的排序名次，称为降秩。每个数据的升秩与降秩的较小者，称为该数据的深度，即深度min（升秩，降秩）例1.12铅压铸件硬度数据如下：53.070.284.355.378.563.571.453.482.5

30、67.369.573.055.785.895.451.174.454.177.852.469.153.564.382.755.770.587.550.772.359.5做出数据的茎叶图。箱线图茎叶图是探索性数据分析所采用的重要方法。而箱线图也能直观简洁地展现数据分布的主要特征。例1.15某班有31个学生，某门课程的考试成绩如下：254550545561646872757578798183848484858686868789898990919192100做出以上数据的箱线图。例给出以上两例的五数总括及字母值显示。正态性检验与分布拟合检验上面介绍的茎叶图、箱线图等对随机型、确定型的数据都有用，其特

31、点是图像生动直观。在直方图、经验分布函数的介绍中，曾提到在总体存在某种类型的分布时，配一条合适的总体概率密度曲线或总体分布函数曲线。然后，所配曲线是否合适，是需要进行统计检验的。检验法:P值与比较根据查表,得X0,与统计量比较根据统计量计算P值,与比较例1.18对以下数据进行正态性W检验：9.898.006.406.175.397.279.0810.4011.208.756.4511.9010.309.589.247.756.208.958.33多元数据的数字特征与相关分析以上我们分析的都是一元数据，但在实际中，人们更多的遇到的是多元数据对于多元数据，除分析各变量的取值特点外，更要分析各个变量

32、之间的相关关系二元数据的数字特征及相关系数设是二元总体，从中取得观测数据引进数据观测矩阵记二元数据的数字特征及相关系数则，称为二元观测数据的均值向量。记二元数据的数字特征及相关系数协方差矩阵有由Schwarz不等式所以S总是非负定的，一般是正定的。二元数据的数字特征及相关系数观测数据的相关系数（Pearson）计算公式是由Schwarz不等式，有即总有二元数据的数字特征及相关系数二元数据的数字特征及相关系数设二元总体的分布函数是；总体协方差是；，是X、Y的方差。由于观测数据的相关系数是总体相关系数的相合估计，故当n充分大时，有二元数据的数字特征及相关系数由二元观测数据可以算得相关系数，但当二元

33、总体的两个分量不相关，即时，相关系数是没有实际意义的。因此，需要做假设检验：二元数据的数字特征及相关系数可以证明，当是二元正态总体，且成立时，统计量：服从自由度为的分布。设由实际观测数据算得的相关系数值为，又按上述公式算得的值是，则值为二元数据的数字特征及相关系数对给定的显著水平，当，拒绝；而当，接受。当拒绝时，认为算得的相关系数有实际意义。Spearman相关系数秩设其次序统计量是若，则称是在样本中的秩，记作例：-0.8，-3.1，1.1，-5.2，4.2次序统计量是-5.2，-3.1，-0.8，1.1，4.2而秩统计量是3，2，4，1，5当观测数据中有两个观测值相等，则相应的秩统计量不能唯

34、一确定，通常对相同的观测值，其秩取为他们秩的平均值。Spearman相关系数Spearman相关系数一个例子:散股民的行为CH6CH9例1.21某种矿石有两种有用成分A，B。取10个标本，分析每个标本中成分A的含量百分数x（）及y（）的数据如下：X（）67547264392258434634Y（）24152319161120161713PROCCORR预测两个变量之间的关系强度针对预测变量的尺度不同，Proccorr提供以下测量强度的方法：1以等距尺度或比例尺度测量的参数统计方法，产生相关系数矩阵；2以等级尺度测量的无参数方法，产生关联系数矩阵。PROCCORRPROCCORR选项串；VAR变

35、量名称串；WITH变量名称串；PARTIAL变量名称；WEIGHT变量名称；FREQ变量名称；BY变量名称串；PROCCORR选项串第一类选项：界定输出输入文件的名称：1DATA输入文件名称省略时如同其它过程2OUTP输出文件名称含有Pearson极差相关系数之矩阵、各变量的平均数、标准差、观察体个数；3OUTS输出文件名称含有Spearman极差相关系数之矩阵、各变量的平均数、标准差、观察体个数；4OUTK输出文件名称含有Kendallstaub极差相关系数之矩阵、各变量的平均数、标准差、观察体个数；PROCCORR选项串第一类选项：界定输出输入文件的名称：5OUTH输出文件名称含有Hoef

36、fdingsD极差相关系数之矩阵、各变量的平均数、标准差、观察体个数；PROCCORR选项串第二类选项：界定测量关系强度的方法，内置值是Pearson：1PEARSON：要求计算积差相关系数，这也是这类的内置值；如要同时计算SPEARMAN、KENDALL、HOEFFDING等则必须选用PEARSON；2SPEARMAN：若选此项，则不可同时选用WEIGHT指令；3KENDALL：同上；4HOEFFDING:同上；PROCCORR选项串第二类选项：界定测量关系强度的方法5ALPHA：计算阿尔法系数，其计算的公式可根据标准化分数或未经标准化的原始分数，其结果可由OUTPSAS资料文件输出。PRO

37、CCORR选项串第三类选项：界定输出1BESTn：只印出每一变量与其他变量间最高的n个关联系数；2NOSIMPLE：不印出变量的描述性统计值：平均数、标准差、中位数、最大值、最小值等；3NOPRINT：不印出任何报表；4NOCORR：输出不包括相关系数；5NOPROB：不印出相关系数的显著性检定结果；6SSCP：印出变量之离差平方和及变量间离差内乘积的联合矩阵。因SSCP矩阵只和积差相关系数有关，故此选项不应和SPEARMAN、KENDALL、HOEFFDING选项同时用；PROCCORR选项串第三类选项：界定输出7COV：印出变量间共异系数的矩阵。因COV矩阵只和积差相关系数有关，故此选项不

38、应和SPEARMAN、KENDALL、HOEFFDING选项同时用；8RANK：使每一个变量与其他变量的相关系数，依其绝对值，由大到小的印出。若省略该选项，则将依各变量界定的顺序而输出相关系数。PROCCORR选项串第四类选项：有关计算过程中的各种事宜1.1）VARDEFN：观察体总数；2）VARDEFDF：观察体总数减1，内置选项；3）VARDEFWEIGHT（WGT）：加权后的观察体总数；4）VARDEFWDF：上述WEIGHT减1。2.NOMISS：若某个观察体在计算的任何一个变量上有遗漏数据，它就被剔除在所有的计算过程之外。PROCCORR指令串VAR变量名称串可在本指令中列举被分析的变量。若省略此变量，则对所有数值变量进行分析。WITH变量名称串须跟VAR指令联用，WITH指令中列举的m个变量，与VAR指令中列举的n个变量，将联合产生m*n的矩阵。矩阵中，WITH的变量是横列变量（Row），VAR的变量是纵行变量（Column）。若只选用VAR指令而忽略WITH指令，则产生n*n正方对称矩阵。多元数据的数字特征与相关矩阵X协方差矩阵:S相关矩阵:R关系:R=D-1/2SD-1/2对于SPEARMAN系数,同样有类似的东东样本均值向量协方差矩阵相关矩阵是总体均值向量协方差矩阵相关矩阵的相合(一致性)估计

展开阅读全文

第01章 数据描述性分析.ppt

第01章数据描述性分析.ppt