《数据的计量尺度课件.ppt》由会员分享,可在线阅读,更多相关《数据的计量尺度课件.ppt(58页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于数据的计量尺度第1页,此课件共58页哦(1)定类尺度定类尺度(Nominal Scale)也称分类尺度也称分类尺度例如:例如:性别、民族、职业性别、民族、职业数据表现为数据表现为“类别类别”各类之间无等级次序各类之间无等级次序 各类别可以用数字代码表示各类别可以用数字代码表示根据定类尺度得到的数据为分根据定类尺度得到的数据为分类数据。类数据。第2页,此课件共58页哦(2)定序尺度定序尺度(Ordinal Scale)也称顺序尺度也称顺序尺度例如例如健康状况、质量等级健康状况、质量等级可对等级、大小等排序可对等级、大小等排序未测量出类别之间的准确差值未测量出类别之间的准确差值根据定序尺度得到
2、的数据为顺序数据。根据定序尺度得到的数据为顺序数据。第3页,此课件共58页哦(3)定距尺度定距尺度(Interval Scale)也称间隔尺度也称间隔尺度例如例如年份、摄氏温度年份、摄氏温度数据表现为数据表现为“数值数值”可以进行加减运算可以进行加减运算“0”是只是尺度上的一个点,不代表是只是尺度上的一个点,不代表“不不存在存在”根据定距尺度得到的数据为间距数据。根据定距尺度得到的数据为间距数据。第4页,此课件共58页哦(4)定比尺度定比尺度(Ratio Scale)也称比率尺度也称比率尺度例如例如体重、身高体重、身高数据表现为数据表现为“数值数值”可以进行加减、乘除运算可以进行加减、乘除运算
3、“0”表示表示“没有没有”或或“不存在不存在”根据定比尺度得到的数据为比率数根据定比尺度得到的数据为比率数据。据。第5页,此课件共58页哦四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较定类尺度定类尺度定序尺度定序尺度定距尺度定距尺度定比尺度定比尺度 分分类类(=,)排序排序()间间距距(+,-)比比值值(,)计量尺度计量尺度数学特性数学特性第6页,此课件共58页哦四种计量尺度的比较四种计量尺度的比较1、四种尺度所包含的信息量是依次递增的,级别由低、四种尺度所包含的信息量是依次递增的,级别由低到高。到高。2、根据较高层次的计量尺度可以获得较低层次的、根据较高层次的计量尺
4、度可以获得较低层次的计量尺度。计量尺度。3、不同的尺度数据对应着不同数据显示方法和分析、不同的尺度数据对应着不同数据显示方法和分析方法。方法。第7页,此课件共58页哦8数据的基本类型第8页,此课件共58页哦9问卷题目的类型大致可以分为单选、多选、排序、开放题目四种类型,他们的变量的定义和处理的方法各有不同,详细举例介绍如下:第9页,此课件共58页哦3.2 统计图数据类型数据类型定性数据定性数据定量数据定量数据条条形形图图饼饼 图图线线 图图茎茎叶叶图图箱箱线线图图直直方方图图第10页,此课件共58页哦3.2.1 线图(Line Chart)利用线形的升降起伏来表现描述的变量在一段时期内的变动情
5、况,主要用于显示时间数列的数据。1996年-2003年城乡居民人民币储蓄存款年底余额第11页,此课件共58页哦双变项线形图(延伸线)输出结果双变项线形图(复线图)输出结果3.2.1 线图(Line Chart)第12页,此课件共58页哦3.2.2 条形图(Bar Chart)用宽度相同的条形高度或长短来表示数据变动的图形,条形的排列可以横排,也可以纵排。条形图有单式、复式等形式。2003年我国就业人员情况(万人)第13页,此课件共58页哦3.2.3 圆形图(Pie Chart)也叫饼图,它是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于总体内部的结构,各组成部分所占比例等。2003年我国
6、国内生产总值中各产业比重第14页,此课件共58页哦3.2.4 直方图(Histogram)用来反映定量变量的分布状况。在统计分组的基础上,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。注意注意对不等距分组:纵轴必须表示为频数密度纵轴必须表示为频数密度。频数密度频数密度=频数/组距(面积之和=总频数)手工绘制直方图时需要先对数据进行分组;用统计软件spss作直方图时统计软件可以自动进行分组。第15页,此课件共58页哦直方图(等距分组)某会计师事务所对某会计师事务所对20家公司家公司进行年终审计所需时间(天)进行年终审计所需时间(天)的频数分布表的频数分布表审
7、计时间(天)频数10-15415-20820-25525-30230-351合计20第16页,此课件共58页哦直方图(不等距分组)某会计师事务所对某会计师事务所对20家公司进家公司进行年终审计所需时间(天)行年终审计所需时间(天)的的频数分布频数分布表表审计时间(天)频数频数密度10-1540.815-2081.620-255125-3530.3合计20-第17页,此课件共58页哦直方图与条形图的异同都是用来反映数据的分布状况,适用于不同类型的数据。条形图条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。直方图直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或
8、百分比,宽度则表示各组的组距,其高度与宽度均有意义。直方图的各矩形通常是连续排列,条形图则是分开排列。第18页,此课件共58页哦主要用于显示未分组的原始数据的分布。由“茎”和“叶”两部分构成,其图形是由数字组成的。通常以数据的高位数值作树茎,低位数字作树叶,树叶上只保留一位数字。树叶的竖列要对齐,以计算各组的次数。原始数据:24,26,24,21,27,27,30,41,32,38从小到大排序后的数据:21,24,24,26,27,27,30,32,38,413 0 2 84 12 1 4 4 6 7 7303.2.5 茎叶图(Stem-and-Leaf Display)茎叶图第19页,此课件
9、共58页哦SPSS Statistics生成的一个茎叶图40名教师的年龄的数据:40,41,48,51,37,35,36,50,33,42,28,33,36,29,28,29,34,35,27,36,28,29,34,26,35,40,27,43,45,39,42,41,48,55,43,42,42,51,52,64stem-and-leaf Plot frequency stem&leaf 9.00 2.677888999 4.00 3.3344 8.00 3.55566679 10.00 4.0011222233 3.00 4.588 4.00 5.0112 1.00 5.5 1.00ex
10、tremes (=64)stem width:10.00 each leaf:1 case(s)第20页,此课件共58页哦常用的集中趋势的测度指标:算术平均数中位数众数集中趋势集中趋势:一组数据向其中心:一组数据向其中心值靠拢的倾向和程度。值靠拢的倾向和程度。集中趋势测度集中趋势测度:寻找数据水平的:寻找数据水平的代表值或中心值。代表值或中心值。第21页,此课件共58页哦4.1.1 算术平均数(均值,Arithmetic Mean)总体均值常用 表示。样本均值常用 表示。样本均值的计算公式:简单平均数:加权平均数(分组数据):4.1 集中趋势的测定集中趋势的测定第22页,此课件共58页哦算术平
11、均数的性质1、所有的定量数据都有算术平均数。2、计算算术平均数时使用了所有数据。3、一组数只有一个均值。4、各变量值与均值的离差之和等于零。张村有个张千张村有个张千万,万,九个邻居穷九个邻居穷光蛋;光蛋;统计平均算统计平均算资产,资产,个个都是张百个个都是张百万。万。缺点:缺点:易受极端值的影响。第23页,此课件共58页哦一组数据按大小顺序排列后,处在数列中点位置的数值。特点:对一组数据是唯一的。不受极端值的影响。主要用于顺序数据,也可用数值型数据,但不能用于分类数据。4.1.2 中位数中位数(Median)4.1 集中趋势的测定集中趋势的测定第24页,此课件共58页哦根据原始数据计算中位数n
12、为奇数时等于第(n+1)/2个数。n为偶数时等于第n/2和n/2+1个数的平均值1,2,5,9,11中位数中位数=51,2,5,9,11,18中位数中位数=(5+9)/2=7第25页,此课件共58页哦一组数据中出现次数最多的变量值。主要特点:不受极端值的影响。有的数据无众数或有多个众数。对未分组定量资料很少使用。4.1.3 众数众数(Mode)4.1 集中趋势的测定集中趋势的测定第26页,此课件共58页哦众数的不惟一性众数众数无众数无众数众数众数 1众数众数2第27页,此课件共58页哦众数、中位数和算术平均数的关系对称分布对称分布 均值均值=中位数中位数=众数众数左偏分布左偏分布均值均值 中位
13、数中位数 众数众数右偏分布右偏分布众数众数 中位数中位数均值均值第28页,此课件共58页哦反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度。常用指标:常用指标:全距(极差)四分位距方差和标准差离散系数 4.2 离散程度的测定离散程度的测定三三个个不不同同的的曲曲线线表表示示三三个个不不同同的的总总体体,其其均均值相同值相同,但,但离散趋势不同离散趋势不同。第29页,此课件共58页哦全距也称极差,是一组数据的最大值与最小值之差。R=最大值最小值组距分组数据可根据最高组上限-最低组下限计算。受极端值的影响。全距=?2,5,6,7,8,9,10,12,15,16
14、,204.2.1 全距全距(Range)4.2 离散程度的测定离散程度的测定7 8 9 107 8 9 10第30页,此课件共58页哦等于上四分位数与下四分位数之差反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。2,5,6,7,8,9,10,12,15,16,20Q1=6,Q2=9,Q3=154.2.2 四分位距四分位距(Inter-Quartile Range)4.2 离散程度的测定离散程度的测定第31页,此课件共58页哦方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。总体方差和样本方差的符号不同,计算
15、公式也不一样。是反映定量数据离散程度的最常用的指标。4.2.3 方差和标准差方差和标准差 4.2 离散程度的测定离散程度的测定4 6 8 10 12x=8.3第32页,此课件共58页哦方差的计算公式总体方差总体方差 样本方差样本方差 未分组数据分组数据 样本方差用(样本方差用(n-1)去除,)去除,从数学角度看是因为它从数学角度看是因为它是总体方差是总体方差2的无偏估计量。的无偏估计量。第33页,此课件共58页哦标准差与其相应的均值之比,表示为百分数。特点:反映了相对于均值的相对离散程度;可用于比较计量单位不同的数据的离散程度;计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等
16、绝对指标更有意义。4.2.4 离散系数离散系数(Coefficient of Variation)4.2 离散程度的测定离散程度的测定第34页,此课件共58页哦偏态和峰度的类型偏态偏态偏态偏态左偏分布左偏分布右偏分布右偏分布正态分布正态分布正态分布正态分布扁平分布扁平分布峰态峰态尖峰分布尖峰分布第35页,此课件共58页哦数据分布的不对称性称作偏态。偏态系数(SK)是对数据分布的不对称性(偏斜程度)的测度。偏态系数有多种计算方法,在统计软件中(如Excel等)通常采用以下公式:4.3.1 偏态及其测定偏态及其测定(Skewness)4.3 分布形态的测定分布形态的测定第36页,此课件共58页哦偏
17、态系数的含义左偏分布左偏分布(也称负偏分布也称负偏分布):偏态系数偏态系数 SK 0;偏态系数的绝;偏态系数的绝对值越大,偏斜越严重。对值越大,偏斜越严重。数据向右边数据向右边延伸得更多延伸得更多对称分布:偏态系数对称分布:偏态系数=0。第37页,此课件共58页哦峰度:数据分布的扁平或尖峰程度。峰度系数(K):数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度。统计软件(如Excel等)中常用以下公式计算4.3.2 峰度及其测定峰度及其测定(Kurtosis)4.3 分布形态的测定分布形态的测定第38页,此课件共58页哦峰度系数的含义扁平分布扁平分布尖峰分布尖峰分布峰度系数峰度系数K0,与正
18、态,与正态分布相比该分布一般为分布相比该分布一般为尖峰、肥尾,肩部较瘦。尖峰、肥尾,肩部较瘦。均值和方差均值和方差相同的正态相同的正态分布分布第39页,此课件共58页哦 5.2.2 相关系数的计算相关系数相关系数(Coefficient of Correlation)是用来衡量是用来衡量变量之间相关程度的指标,根据变量的多少和属性可变量之间相关程度的指标,根据变量的多少和属性可以有多种不同的计算方法。以有多种不同的计算方法。衡量两个定量变量之间线性相关程度的常用指标衡量两个定量变量之间线性相关程度的常用指标是是皮尔逊皮尔逊(Pearson)相关系数相关系数。通常以通常以表示总体的相关系数,以表
19、示总体的相关系数,以r r表示样本的相关表示样本的相关系数。系数。第40页,此课件共58页哦r的取值范围为:的取值范围为:-1r1;r越接近越接近1,X与与Y之间的线性关系越好;之间的线性关系越好;r=1为完全正相关关系;为完全正相关关系;r=-1为完全负相关关系为完全负相关关系r=0,两个变量之间不存在线性关系或不相关。,两个变量之间不存在线性关系或不相关。一般可按三级划分:一般可按三级划分:|r|0.4为低度线性相关;为低度线性相关;0.4|r|0.7为为显著性相关;显著性相关;0.7|r|1为高度线性相关。为高度线性相关。相关系数r 的特征第41页,此课件共58页哦5.2.3 相关系数的
20、显著性检验样本相关系数r受到抽样波动的影响,是一个随机变量。相关系数非常高的样本也有可能来自无相关关系的总体。为了排除这种情况,需要对相关系数进行假设检验。第42页,此课件共58页哦(1)Multiple R,又称为相关系数,它用来衡量变量x和y之间相关程度的大小。R为0.9968,表示二者之间的关系是强正相关。1.1.回归统计表回归统计表实验任务二:使用Excel的分析工具库进行回归第43页,此课件共58页哦R的取值范围为:的取值范围为:-1R1;R越接近越接近1,X与与Y之间的线性关系越好;之间的线性关系越好;R=1为完全正相关关系;为完全正相关关系;R=-1为完全负相关关系为完全负相关关
21、系R=0,两个变量之间不存在线性关系,两个变量之间不存在线性关系或不相关。或不相关。一般可按三级划分:一般可按三级划分:|r|0.4为低度线性相关;为低度线性相关;0.4|r|0.7为显著性相关;为显著性相关;0.7|r|1为高度线性相关为高度线性相关。实验任务二:使用Excel的分析工具库进行回归第44页,此课件共58页哦(2)R Square(拟拟合合优优度度系系数数R2):用用来来说说明明用用自自变变量量解解释因变量释因变量变差变差的程度,以测量对因变量的拟合效果。的程度,以测量对因变量的拟合效果。拟拟合合优优度度系系数数为为0.9936,表表明明用用自自变变量量可可解解释释因因变量变差
22、的变量变差的99.36%。实验任务二:使用Excel的分析工具库进行回归第45页,此课件共58页哦决定系数的取值R2的取值范围是0,1。R2越接近于1,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好。在一元线性回归中,相关系数r的平方等于判定系数,符号与自变量x的系数一致。因此可以根据回归结果求出相关系数。所有的回归程序都会给出R2的值.第46页,此课件共58页哦(3)Adjusted R Square(调整的拟合优度系数):仅用于多元回归才有意义,它用于衡量加入独立变量后模型的拟合程度。当有新的独立变量加入后,即使这一变量同因变量之间不相关,未经修
23、正的R2也要增大,修正的R2仅用于比较含有同一个因变量的各种模型。(4)标准误差:又称为标准回归误差或估计标准误差,它用来衡量拟合程度的大小,也用于计算与回归有关的其他统计量,此值越小,说明拟合程度越好。实验任务二:使用Excel的分析工具库进行回归第47页,此课件共58页哦实验任务二:使用Excel的分析工具库进行回归拟合优度 1、决定系数 2、估计标准误差显著性检验 3、t检验 4、F检验第48页,此课件共58页哦季节指数 乘法模型中的季节成分通过季节指数来反映。季节指数季节指数(季节比率):反映季节变动的相对数反映季节变动的相对数。1、月(或季)的指数之和等于1200%(或400%)。2
24、、季节指数离100越远,季节变动程度越大,数据越远离其趋势值。第49页,此课件共58页哦因子分析因子分析因子分析在一定程度上可被视为主成分分析因子分析在一定程度上可被视为主成分分析的深化和拓展。的深化和拓展。基本原理基本原理是将具有一定相关关系的多个变量综合是将具有一定相关关系的多个变量综合为数量较少的几个因子,研究一种具有错综复杂为数量较少的几个因子,研究一种具有错综复杂关系的实测指标是如何受少数几个内在的关系的实测指标是如何受少数几个内在的独立因独立因子子所支配的。所支配的。第50页,此课件共58页哦SPSSSPSS因子分析操作因子分析操作6、单击“得分”,选中“保存为变量”,“显示因子得
25、分系数矩阵”,单击“继续”;其余选项使用默认值。单击“确定”。Display factor score coefficient matrix第51页,此课件共58页哦因子分析结果分析因子分析结果分析除了“外貌外貌”变量外其他变量的共同度都比较高。变量共同度变量共同度表表变量共同度:各变量中所含原始信息能被提取的公共因子所解释的程度。变量的共同度越接近1,说明被变量公共因子解释的程度越高,因子分析的效果越好。第52页,此课件共58页哦前4个因子的贡献率为81.49%。旋转之后各因子的旋转之后各因子的方差贡献率可能会方差贡献率可能会发生变化!发生变化!SPSS因子分析操作因子分析操作贡献献率率第5
26、3页,此课件共58页哦旋转前后的因子载荷矩阵旋转成分矩阵,每行都有一个较大的值。旋转成分矩阵,每行都有一个较大的值。因子因子旋转后旋转后1 12 23 34 4简历格式简历格式.116.116.830.830.109.109-.136-.136外貌外貌.440.440.151.151.399.399.227.227研究能力研究能力.064.064.128.128.007.007.928.928兴趣爱好兴趣爱好.220.220.245.245.871.871-.081-.081自信心自信心.916.916-.107-.107.163.163-.065-.065洞察力洞察力.863.863.097
27、.097.255.255.002.002诚信度诚信度.219.219-.242-.242.863.863.001.001推销能力推销能力.910.910.223.223.103.103-.041-.041工作经验工作经验.087.087.851.851-.055-.055.211.211工作魄力工作魄力.800.800.349.349.156.156-.052-.052志向抱负志向抱负.918.918.159.159.100.100-.041-.041理解能力理解能力.811.811.255.255.331.331.143.143潜能潜能.747.747.326.326.413.413.224
28、.224求职渴望度求职渴望度.440.440.363.363.534.534-.524-.524适应力适应力.383.383.797.797.076.076.084.084第54页,此课件共58页哦因子含义的解释因子含义的解释第一个因子第一个因子在外貌、自信心、洞察力、推销能力、工作魄力、志向抱负、理解能力、潜能等变量上有较大的系数,可以抽象为应聘者主客观工作能力因子应聘者主客观工作能力因子;第二个因子第二个因子在简历格式、工作经验、适应力变量上有较大的系数,可抽象为应聘者对客观环境的适应力因子应聘者对客观环境的适应力因子;第三个因子第三个因子在兴趣爱好、诚信度、求职渴望度变量上有较大的系数,
29、可抽象为应聘者的兴趣和诚信因子应聘者的兴趣和诚信因子;第四个因子第四个因子在研究能力变量上系数较大,可抽象为应聘者应聘者的学习能力因子的学习能力因子。第55页,此课件共58页哦成分得分系数矩阵成分得分系数矩阵FAC1-1-0.099简历格式分+0.016外貌分-0.020学习能力分-0.159兴趣爱好分+0.251自信心分+0.185洞察力分-0.093诚信度分+0.217销售能力分-0.082工作经验分+0.155工作魄力分+0.228志向抱负分+0.129理解能力分+0.080潜能分-0.026求职渴望度分-0.014适应力分公因子的表达式标准化变量第56页,此课件共58页哦SPSSSPSS计算的因子得分计算的因子得分根据因子得分可以对应聘者进行综合评价。例如可以按照第一因子进行排序,对应聘者主客观工作能力进行评价。第57页,此课件共58页哦2022/10/14感感谢谢大大家家观观看看第58页,此课件共58页哦