单变量描述统计分析(1).ppt

上传人:得****1 文档编号:75959601 上传时间:2023-03-06 格式:PPT 页数:76 大小:1.45MB
返回 下载 相关 举报
单变量描述统计分析(1).ppt_第1页
第1页 / 共76页
单变量描述统计分析(1).ppt_第2页
第2页 / 共76页
点击查看更多>>
资源描述

《单变量描述统计分析(1).ppt》由会员分享,可在线阅读,更多相关《单变量描述统计分析(1).ppt(76页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第四章第四章 基本统计分析基本统计分析2频数分析频数分析描述统计描述统计过程过程互联表统互联表统计分析计分析比率分析比率分析探索性统探索性统计过程计过程34.1 4.1 频数分析频数分析 Frequenciesn频数分析的基本任务:编制频数分布表和绘制统计图。n频数分析的扩展功能:计算分位数和计算其它基本的描述统计量(包括:集中趋势、离散程度、分布形态)n注意:这里计算基本统计量的功能在Descriptive也可以实现。故不作重点讲解。4主对话框主对话框显示频数显示频数分布表分布表5百分位数百分位数 离散趋离散趋势指标势指标 集中趋集中趋势指标势指标采用组中采用组中值计算值计算分布形态分布形态

2、指标指标计算基本统计量 Statistics四分位数四分位数每隔指定每隔指定百分位数百分位数直接指定某直接指定某个百分位数个百分位数6带正态曲线带正态曲线的直方图的直方图绘制统计图 ChartsCharts饼状图饼状图条形图条形图频数频数频率频率针对针对Bar/Pie Charts而言,纵而言,纵轴表示的轴表示的数值数值7按变量值按变量值按频数按频数频数分布表输出格式频数分布表输出格式 FormatFormat当频数表的分组数大于下面当频数表的分组数大于下面指定数值时禁止它在结果中指定数值时禁止它在结果中输出,这样可以避免产生巨输出,这样可以避免产生巨型表格。型表格。当选择两个以上变量作频数表

3、当选择两个以上变量作频数表时,时,C可以将结果输出在同一可以将结果输出在同一频数表过程的频数表过程的output;O可以可以将结果输出在不同的将结果输出在不同的output。8按按变变量量值值升升序序排排列列这里是定类变量,这里是定类变量,计算累计百分比计算累计百分比是无意义的是无意义的91011统计学推断统计学描述统计学常用分析指标:算术平均数、常用分析指标:算术平均数、调和平均数、几何平均数;众调和平均数、几何平均数;众数、中位数、分位数等数、中位数、分位数等常用分析指标:全距、内距、常用分析指标:全距、内距、平均差、方差、标准差等;平均差、方差、标准差等;4.2 计算描述统计量 Desc

4、riptive集中趋势分析离散程度分析刻画分布形态12偏度与峰度n分布形态主要是指数据分布是否对称,偏斜程度如何,分布分布形态主要是指数据分布是否对称,偏斜程度如何,分布陡缓程度如何。陡缓程度如何。n偏度(偏度(Skewness):反映数据分布对称性的统计量。):反映数据分布对称性的统计量。n当数据为对称分布时偏度为零;当数据为正偏态分布(右偏)当数据为对称分布时偏度为零;当数据为正偏态分布(右偏)时偏度大于零;当数据为负偏态分布(左偏)时偏度小于零。时偏度大于零;当数据为负偏态分布(左偏)时偏度小于零。n峰度峰度(Kurtosis):以标准正态分布为标准描述该分布密度:以标准正态分布为标准描

5、述该分布密度的形状为陡缓程度的统计量。的形状为陡缓程度的统计量。n当数据为标准正态分布时,峰度为零;数据分布为尖峰分布当数据为标准正态分布时,峰度为零;数据分布为尖峰分布时峰度大于零;数据分布为平峰分布时峰度小于零。时峰度大于零;数据分布为平峰分布时峰度小于零。13 标准化Z分数问题n标准化Z分数问题:通过标准化过程可得到一系列新变量值,通常称为标准化值或Z分数。n标准化过程:n标准化变量的作用:可以发现变量中的极大值和极小值,以便发现分布是否均衡的问题。n描述统计分析的结果指标与频数分析过程基本相同,区别在于:Descriptive只计算几个主要的描述指标,不同时输出频数分布图表。14主对话

6、框对当前变量的数据进行标准化,对当前变量的数据进行标准化,产生的新变量名为原变量名前加产生的新变量名为原变量名前加“Z Z”,并显示在最后一列,并显示在最后一列。选择统计量选择统计量1516n重抽样自举法(Bootstrap,拔靴法)所谓的自举法自举法就是利用有限的样本资料经由多次重复抽样,重新建立起足以代表母体样本分布之新样本。设一个样本具有变量y1,y2,y3,yn,用某种方法得到其对总体参数a的估计值则在抽样时,每一轮都要从这n个变量中抽取一个容量也是n的随机样本,并保证每一变量在每轮每次抽样中的被抽取概率都是1/n(相当于经典方法的复置抽样)。17n实现方法:此过程一般可用随机数表或由

7、计算机输出n个01之间的随机数实现。即:先将样本变量编码为1,2,n;然后取分组距离1/n将区间 0,1分成n个互斥的分隔:01/n,1/n2/n,2/n3/n,.,(n-1)/n;出现的随机数,凡在 0R1/n之间的取编码“1”变量,凡在1/nR2/n 之间的取编码“2”变量,凡在(n-1)/n R1 之间的取编码“n”变量,这就称为自举抽样,18由这n个“新”变量组成的样本则称为自举样(bootstrap sample)。当对原始样本变量重复进行m轮自举抽样,就得到m个容量均为n的自举样本。再对每一样本都按照在原始样本中所用的方法求出参数a的估计值,会得到关于参数的m个估计值,这些估计值的

8、方差称为自举方差。n重抽样自举法的意义:自举方差是对估计量抽样方差较好近似。19204.3 交叉分组下的频数分析 Crosstabsn统计中常常会探讨变量间的关系,如两变量间是否有关联、进一步研究两变量间是否是因果关联。如性别和大学专业的选择,学习兴趣和学习效果等等。n列联表分析的目的:分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系。n两大基本任务:一,产生两维或多维交叉列联表;二,对两两变量间是否存在一定的相关性进行卡方检验和其它相关性检验。n分析对象:两个或多个定类或定序的变量。21交叉列联表行列变量间关系的分析n所有观测频数都出现在主对角线上,则

9、两变量存在正相关。n所有观测频数都出现在负对角线上,则两变量存在负相关。工资收入低中高年龄段青40000中05000老00600工资收入低中高年龄段青00500中06000老40000n在绝大多数情况下,观测频数的分布是分散在列联表的各个单元格中的,此时就不容易直接发现行列变量之间的关系和他们关系的强弱关系。为此,需要借助非参数检验方法和一些度量变量间相关程度的统计量等手段进行分析。2223主对话框行变量行变量列变量列变量层变量层变量绘制频数分布柱形图绘制频数分布柱形图不输出列联表不输出列联表指定哪种方法分析指定哪种方法分析行列变量间的关系行列变量间的关系指定列联表单元指定列联表单元格中的输出

10、内容格中的输出内容指定列联表单元指定列联表单元的输出排列顺序的输出排列顺序当涉及当涉及到两个到两个以上的以上的变量讨变量讨论时需论时需要通过要通过层变量层变量来实现来实现24观测频数观测频数期望频数期望频数行百分比行百分比列百分比列百分比总百分比总百分比非标准化残差非标准化残差Cells&Format标准化残差标准化残差调节的标准化残差调节的标准化残差25层变量层变量行变量行变量列变量列变量n注:未标准化残差定义为:观测频数-期望频数2627注意:注意:Crosstabs Crosstabs 过程不能产生一维频数表(单变量频数表),过程不能产生一维频数表(单变量频数表),该功能由该功能由Fre

11、quenciesFrequencies过程实现。过程实现。28卡方检验n卡方检验的作用:可用于探讨列联表行变量和列变量之间是否有关联的推断性分析。若无关联,则认为两变量独立。H0:行变量与列变量独立。n卡方检验的统计量(Pearson卡方统计量):n决策方法:若卡方观测值的概率p小于等于a,则判定行列变量间存在存在依存关系;反之,如果卡方观测值的概率p大于a,则判定行列变量间相互独立。这里a0.05或0.01。29301Pearson卡方检验卡方检验2连续性校正连续性校正3似然比卡方检验似然比卡方检验4Fish4Fish精确精确检验检验5线性相关卡方检验线性相关卡方检验卡方检验注意事项n一,列

12、联表的单元格不应太少,例如22的列联表需要进行连续型修正和采用Fisher精确检验进行校对。n二,各单元格中的期望频数,不应有期望频数小于1的单元格,或大量的期望频数小于5的单元格。若列联表中有20以上的单元格的期望频数小于5,则一般不宜用卡方检验。此时,可以采用合并相邻单元格或采用似然率比卡方检验。3132n三,总频数n应较大,一般至少大于50,大于100更好。在小样本是可主要参考连续性校正和Fisher的精确检验。n四、卡方值的大小会受到样本量的影响,若各个单元格中的样本数均等比例扩大10倍,于是卡方值也会随之扩大10倍。但由于自由度和显著水平没有改变,卡方的临界值不变,进而使拒绝零假设的

13、可能性增高。即在样本量很大时,容易得到“两变量有关联”的结论,即便两变量的关联性很微弱时。n五、当行列变量都是定序型变量,可以参考线性相关卡方检验,该检验是检验两个定序的行列变量间是否具有线性相关性。33例:n结论:户籍状况和房屋情况有关联。34例:结论:该列联表本身不适合做卡方检验,一定程度上可以参考似然比卡方检验结果。但可以考虑其他相关性检验。35关联分析n在关联分析中,对于关联指标的选择需要视变量的测量尺度和变量间的对称关系而定,而相关的检验则可以辅助了解两变数间的相关程度是否已经达到统计上的显著性。n关联分析应从相关研究或专业判断来建立理论基础,再辅以统计分析加以验证,不宜从数据分析的

14、结果遂下结论,产生倒果为因的谬误。36关联分析的四大属性n对称性:自变量会影响因变量而因变量不会影响自变量的情形称为不对称关系,如教育程度和个人收入;两个变量会相互影响或不确定影响方向的情况称为对称关系,如工作满足感和工作绩效。n方向:指变量关联的变动方向,可以分为正负两个方向。只有两变量皆为定序以上时才会讨论关联方向。若有一变量为定类时,则无关联方向,其关联方向一律以正向表示。37n关联强度:关联强度的侧度通常根据用自变量来预测因变量的准确程度来判断,若正确程度高表示两变项间的关联程度高,反之,则低。对于有关联方向的两变数,关联系数的值介于-1和1之间,关联系数的绝对值越接近1,关联性越强;

15、对于无关联方向的两变量,关联系数的值介于0和1之间,关联系数的值越接近1,关联性越强。38n关联形态:指变量之间共同变化会呈现何种规则变化的状态,常见的关联形态有直线、抛物线、U型,J型等。只有两变量皆为定序以上时才会讨论关联形态,一般所讨论的关联形态大多属于直线关联。39关联量数的种类n一类为以卡方统计量为基础的关联量数:卡方统计量不可以测量关联强度,其他以卡方统计量为基础的关联量数虽然能够表示关系的强弱,但不易解释。n另一类是可反映误差缩减比例(Proportional reduction in error;PRE)的关联量数:PRE值指“使用辅助变量能减少的预测错误所占的比例”,即若E2

16、和E1分别代表有无使用辅助变数时的预测误差,则PRE=(E1-E2)/E1。40因此,PRE介于01,其值越 大表示辅助变数可以减少越多的预测误差,代表两变数间的关联越强。因此,PRE在解释上比较有意义。实务中,若PRE的值小于10%,则认为变量间关联程度不强。41度量变量间相关程度的统计量n除上述卡方检验法之外,SPSS还提供了其他度量变量间相关关系的检验方法,帮助人们了解变量间相互依赖的强弱程度,量化交叉分类变量间的关系。n四大类相关分析的检验方法。判断方法:系数的绝对值越接近于1,则变量的相关性越强;越接近于0,则变量间相互独立。正负号代表相关方向。n变量的测量尺度大致分为:定类、定序、

17、定距。常规上变量类型在使用上只允许降级使用,不许用升级使用。当定序变量的类别数较多时,可以近似将定序视为定距。4243卡方检验卡方检验1两定类两定类2一定类一定距一定类一定距3两定序两定序医学分析中医学分析中常用指标常用指标4两定距或两定序两定距或两定序Statistics适用于两定类变量的方法n检验的统计量有列联系数、Phi系数、Cramer V系数、Lambda、不确定系数等。这些方法除Lambda、不确定系数,其余三个是从Pearson卡方统计量派生出来的,试图将样本量、行列数对卡方的影响减少到最小。Phi系数是很粗糙的关联指标,一般适用于22的列联表。44列联系数适用任意行列数的列联表

18、,但注意到列联系数的最大值会随行列数的增大而增大。因此,在比较两两变量间的相关性时,注意应在行列数均相同的前提下才有可比性。Cramer V 适用于任意行列数的列联表,在22的列联表中,V系数和Phi系数是相等的。Lamdba是一种以众数作为预测基准的关联量数,是属于可以反映误差缩减比例的关联量数。主要用于对称的关系,但也可以用于不对称的关系。其系数介于01之间。45关于Lambdan若利用血型辅助预测个性:E1=60-30=30 E2=(24-20)+(17-10)+(9-4)+(10-5)=21 Pre=(E1-E2)/E1=(30-21)/30=0.3即以血型预测个性会减少30%的预测误

19、差。46例:n结论:两变量的关联性显著但微弱。47例:n结论:两变量关联关系显著但微弱,且具备一定的对称性。48n注:当自变量与因变量为对称关系时,将两者相互预测的误差数合并计算(即E1与E2皆是X预测Y的误差加上Y预测X的误差数)。n例如本例:E1=(20+10)+(18+11)=59E2=(10+10+6)+(11+8+6)=51Pre=(59-51)/59=0.13649适用于两定序变量的方法n检验的统计量有Gamma系数、Somersd系数Kendalls Tau-b系数、Kendalls Tau-c系数等。这些方法均是围绕“同序对数”和“异序对数”展开的,它们是变量相关性检验的非参数

20、方法中 的两个重要指标。50同序对数和异序对数n所谓配对就是将所有观测值两两配成一对,样本总数为n的交叉表其配对数总共T=n(n-1)/2,这些配对可以分为同序对(P),异序对(Q),自变量同分对(Tx),因变量同分对(Ty),完全同分对(Txy)。即:T=P+Q+Tx+Ty+Txyn完全同分对:指在某观测值在X和Y的变量上等级完全相同。51n同序对:指某观测值在X变量和Y变量的相对等级一样,即某观测值在X和Y上的等级皆比另一个观测值 在X和Y上的等级都大或都小。n异序对:指某观测值在X变量和Y变量的相对等级不一样,即某观测值在X上的等级比另一个观测值大(或小),而在Y变量上的顶级比另一观测值

21、小(或大)。52n注:如果同序对数占多数,则认为两变量为正相关;如果异序对数较多,则认为两变量为负相关;如果同序对数和异序对数大致相等,则认为两变量无线性关系。n自变量同分对:指某观测值在X的等级上相同,在Y的等级上不同。n因变量同分对:指某观测值在Y的等级上相同,在X的等级上不同。53n五种配对类型的含义:假设有甲、乙、丙、丁、戊五个观测值在X和Y的变量值如下表1,转换成交叉列联表后得表2这里:配对总数T=10,同序对数P=3(每一点所有右下方的配对数的和)54异序对数Q=3(每一点和所有左下方的配对数的和)自变量同分对数Tx=1(同行的配对数的和)因变量同分对数Ty=2(同列的配对数的和)

22、完全同分对数Txy=1(同一个格子的频数和)55关于GammanP=20(15+5+11+21)+6(5+21)+10(11+21)+1521=1831nQ=4(10+15+8+11)+6(10+8)+5(8+11)+158=499nV=(P-Q)/(P+Q)=0.572n表示:利用工作态度与服务品质的相对等级相互预测可以减少57.2%的预测误差。56Gamma系数适用于22的列联表,适用于分析对称型关系,只能测定直线关联形态,是可以反映误差缩减比例的列联系数。该系数取值在-11之间,绝对值越接近1,变量的相关性越大。SPSS中用符号V表示。Somersd系数适用于分析不对称型关系,可以反映误

23、差缩减比例。该系数取值在-11之间,绝对值越接近1,变量的相关性越大。SPSS中用符号V表示。57Kendalls Tau-b系数适用于nn的列联表。该系数取值在-11之间,正负号代表相关方向,绝对值越接近1,变量的相关性越强。Kendalls Tau-c系数适用于任意列联表,该系数取值在-11之间,正负号代表相关方向,绝对值越接近1,变量的相关性越强。Kendalls Tau-b和Kendalls Tau-c都适用于对称型关系,其原理类似Gamma,但无法反映误差缩减 比例,只能判断关联方向及粗略的关联强度,应用 上不如Gamma和Somersd。58例:n结论:两变量的关联关系显著,两变量

24、的关联方向为正方向,关联强度为中等,且利用工作态度与服务品质的相对等级相互预测可以减少57.2%的预测误差。59例:60适用于两定距或两定序变量的方法n检验的统计量有Pearson相关系数(参数方法)和Spearson相关系数(非参数方法)。他们的取值在-11之间,绝对值越大,相关性越强,且是表明线性相关性越强。n由于列联表分析中,定距型变量通常不作为行列变量,因此在交叉列联表的分析一般是针对变量值较多的定序变量使用。n关于两定距变量的相关性分析在相关分析的模块中可以实现。61例:n结论:两变量的关联显著,且关联程度较强,关联方向为正方向。62适用于一定类变量、一定距变量的方法n其相关性检验方

25、法是Eta系数(相关比)。该方法的核心思想类似于单因素方差分析。它将定类变量作为“控制变量”(Independent,解释变量),将定距变量当作观测变量(Dependent,被解释变量)。然后分析观测变量的变差中有多少比例是可以由控制变量解释的。nEta系数的取值在01之间,越接近1,表示两变量的相关性越强。由此可知,Eta是属于PRE类的关联量数,基本上用于不对称的关系,但对称关系也可以使用。63nEta相关比也可以用来测量两个连续变量之间的非直线关系。其做法是将其中的一个变量转换成类别变量,再用Eta来测量关联情形,若Eta值与相关系数之绝对值相差越大,显示两变量之间的关系越是非直线关系。

26、64例:n结论:两变量无显著关联性。65664.5 比率分析 Ration比率分析用于对两变量间变量值比率变化的描述分析,适用于定距变量。当研究者特别关心该比率在不同组间的变动情况是,该过程非常有用。n描述分析基本包括两大类:一类是集中趋势的描述指标,另一类是离散程度描述指标。67相对比分母的变量相对比分母的变量分组变量分组变量要求在结果窗口中输出分析结果要求在结果窗口中输出分析结果要求将分析结果存为外部数据要求将分析结果存为外部数据将数据按照分将数据按照分组变量值排序组变量值排序相对比分子的变量相对比分子的变量68中位数中位数均数均数加权均数加权均数区间估计区间估计平均绝对离差平均绝对离差离

27、散系数离散系数相关价格微分相关价格微分基于中位数的变异系数基于中位数的变异系数基于均数的变异系数基于均数的变异系数用于描用于描述相比述相比值落入值落入某一区某一区间所占间所占的比例的比例自定义具体区间的上、下界自定义具体区间的上、下界自定义距离中位数的百分比自定义距离中位数的百分比69集中系数集中系数加权均数的算法为组内分子的均数除以分母的均数加权均数的算法为组内分子的均数除以分母的均数704.4 多选项分析 n多选项分析主要是针对问卷调查的多选项问题的。本节主要讨论多选项问题结果的保存(多选项问题的分解),以及多选项问题的频数分析。n多选项问题分解的两种办法:第一,多选项二分法;第二,多选项

28、分类法。n频数分析的两步骤:第一,定义多选项变量集;第二,作多选项频数分析或交叉分组下的频数分析。71Define Sets指定变量集中指定变量集中的变量是按哪的变量是按哪种方法分解的种方法分解的为变量集命名为变量集命名表示选中表示选中的数值的数值72Frequencies注意:注意:SpssSpss规定只要样本在多选项变量集中的某一个变量规定只要样本在多选项变量集中的某一个变量上取缺失值,分析时就将该样本剔出。上取缺失值,分析时就将该样本剔出。73279383774Crosstabs行变量行变量列变量列变量定义变量的定义变量的取值范围取值范围75分母为分母为样本数样本数分母为多选分母为多选项应答数项应答数76

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁