《《SPSS统计描述》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《SPSS统计描述》PPT课件.ppt(69页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计描述 引引 言言1内容提要内容提要统计概述与数据统计概述与数据集中趋势集中趋势F指标介绍指标介绍F在在EXCEL和和SPSS中的应用中的应用变异程度变异程度F指标介绍指标介绍F在在EXCEL和和SPSS中的应用中的应用分布形状分布形状2什么是统计学?什么是统计学?1.收集数据收集数据F抽样设计;问卷调查抽样设计;问卷调查2.演示数据演示数据F图;表图;表 3.统计描述统计描述F集中趋势;变异程度;分布形状集中趋势;变异程度;分布形状4.统计推断统计推断F统计估计:参数估计(点估计;区间估计);非参数估统计估计:参数估计(点估计;区间估计);非参数估计计F假设检验:参数检验;非参数检验假设检
2、验:参数检验;非参数检验5.其他统计分析其他统计分析F相关分析;方差分析;因子分析;聚类分析;回归分析相关分析;方差分析;因子分析;聚类分析;回归分析3统计学的研究方法统计学是从一组数据中抽象出有用信息以支持决策的原理和方法。统计学的研究领域或方法分为两部分:F统计描述 Descriptive StatisticsF统计推断 Inferential Statistics4统计描述和统计推断统计描述:整理、概括并提供数据的方法以便看出数据间有用的关系F例如:使用曲线图、饼图、条形图、表格等统计推断:利用从总体的一个样本中获得的信息来推断总体的特征时使用的方法F例如:估计、检验、预测5统计描述涉及
3、InvolvesF收集数据 Collecting DataF演示数据 Presenting DataF把握数据特征 Characterizing Data目标PurposeF描述数据 Describe Data6统计推断涉及InvolvesF估计 EstimationF假设检验 Hypothesis Testing目标 PurposeF确定总体 的特征 Make Decisions About Population Characteristics7数据来源直接来源间接来源数值来源试验问卷调查观察出版物(或网上)8数据类型数值数据属性数据数据类型离散数据连续数据9数据类型举例数值数据(定量的)F
4、离散的(数出来的)本月内买过几本书?_ F连续的(测出来的)从家到学校的距离?_(公里)属性数据(定性的)你喜欢参与式教学吗吗?_ 喜欢 _ 不喜欢10数据度量尺度定类尺度Nominal 无等级次序排列 F例如:男-女;从事工作的行业定序尺度Ordinal 可作等级次序排列 F例如:学校职位;班级排名定距尺度Interval F没有真正的零点;例如,摄氏度C定比尺度Ratio 存在真正的零点,倍数有意义F例,身高、体重11数据度量与信息含量度量尺度的信息含量由弱到强排列:定类尺度定序尺度定距尺度定比尺度定类尺度和定序尺度用于属性数据F信息量低定距尺度和定比尺度用于数值数据F信息量高12数据的统
5、计描述 13概括描述数值数据 一个变量的问题:解释数值数据的特征F 集中趋势F 变异程度F 分布形状 两个以上变量的问题:F相关系数和回归14数值数据的特征和度量15均 值(平均数)用于度量数据的集中趋势是最常见的集中趋势的度量如同平衡点易受极端数值影响 公式(样本均值)16例:人均受教育年限(人力资本)17几何平均数常用于计算百分比、比率、指数、增长率等指标的平均数几何平均数 算术平均数公式(要求 xi 0)18几何平均数的实际算法为了避免零增长率或负增长率,几何平均数的计算一般改为如下公式。中国的GDP增长率计算用的是实际GDP的几何平均数。19例:高等学校招生数量的增长1978年为40.
6、2万人,2004年为447万人,增长率为:exp(ln(447/40.2)/26)-10.09720复利计算公式的应用在已知初值、终值及期数的情况下,下列复利计算公式也可以用于计算几何平均数,即平均变化率:A(1+r)n=F其中,A=初值,r=平均变化率 n=期数,F=终值21算术平均数和几何平均数的差别示例:假设$1投入普通股票的投资组合,在连续的两个年度中得到正50%和负50%的回报。第一年末投资组合价值$1.5。第二年末投资组合价值$0.75。年度变化的算术平均数为0,而年度变化的几何平均数(复利回报)为负13.4%。显然,几何平均数更适合度量资产在不同时期的变化。22加权平均数23例:
7、已知2000年三次产业从业人员的平均受教育年限分别为6.9年、7.8年和12.1年,问全体从业人员的平均受教育年限是多少?不能用简单算术平均!要先查找各个产业的从业人员数量,或比重。例如,知道2000年三次产业比重分别为50、22.5和27.5。全体从业人员的平均受教育年限是:F0.5*6.9+0.225*7.8+0.275*12.18.524调和平均数调和平均数:倒数的算术平均数的倒数。主要用来计算学习速度等平均。公式:25调和平均数举例一个学生阅读2页书,读第一页时的速度折合为每小时20页,读第二页时的速度折合为每小时40页,问该生平均每小时阅读速度是多少?算术平均为:调和平均为:实际用时
8、为:60/20+60/40=3+3/2=9/2分钟按算术平均读,可以读 30/60*9/2=9/4页按调和平均读,可以读(80/3)/60*9/2=2页26中位数用于度量数据的集中趋势Central Tendency为排序序列的中间值F如果 n 是奇数,即为排序序列居中位置的观测值F如果 n 是偶数,则为排序序列两个居中位置的观测值的均值中位数在序列中的位置:不受数据极端值的影响27众数用于度量数据的集中趋势为出现次数最多的数值可从排序数组中观察得到不受极值的影响一组数据可能没有众数或有多个众数对数值数据和类型数据均适用28值域中点用于度量数据的集中趋势是最小和最大观测值的平均值对数据的极端值
9、非常敏感常用于金融分析和气象预报值域中点 XX最小值最大值229四分位数用于度量数据的非集中趋势 把排序数据等分为四个区间第i个四分位数的位置25%25%25%25%Q1 Q2 Q330四分位数Q1,first quartile,第一四分位数是处于(n+1)/4 位置上的观测值。25%的观测值比第一四分位数小。Q2,second quartile,第二四分位数就是中位数。处于2(n+1)/4=(n+1)/2的位置上。50%的观测值比中位数小。Q3。third quartile,第三四分位数是处于 3(n+1)/4位置上的观测值。75%的观测值比第三四分位数小。31中轴数用于度量数据的集中趋势C
10、entral Tendency是第一和第三四分位数的平均值不受数据极端值的影响Not Affected by Extreme Values32应用示例假如某班1小组期末考试数学成绩为:83,52,96,79,83,88,64,79,83,69试用上述方法描述数学成绩的集中趋势33题解:均值34原数据:83 52 96 79 83 88 64 79 83 69排序数据:52 64 69 79 79 83 83 83 88 96排序位置:12345678910题解:中位数(Median)35题解:众数原数据:83 52 96 79 83 88 64 79 83 69排序数据:52 64 69 79
11、 79 83 83 83 88 96排序位置:1234567891036题解:值域中点(值域中点(MidrangeMidrange)原数据:83 52 96 79 83 88 64 79 83 69排序数据:52 64 69 79 79 83 83 83 88 96排序位置:1234567891037题解:Q1原数据:83 52 96 79 83 88 64 79 83 69排序数据:52 64 69 79 79 83 83 83 88 96排序位置:1234567891038题解:Q3原数据:83 52 96 79 83 88 64 79 83 69排序数据:52 64 69 79 79 8
12、3 83 83 88 96排序位置:1234567891039题解:中轴数(Midhinge)原数据:83 52 96 79 83 88 64 79 83 69排序数据:52 64 69 79 79 83 83 83 88 96排序位置:1234567891040在EXCEL中计算集中趋势直接利用函数:F平均值:average(注意EXCEL中用的不是mean)F中位数:medianF众数:mode41在SPSS中计算集中趋势观测量概述:analyzereports cases summarize频数分析:AnalyzeDescriptive StatisticsFrequencies描述统计
13、量:analyze-descriptive statistics-descriptive42数值数据的特征和度量43全距(极差)度量数据的离散程度Measure of Dispersion最大和最小观测值之差不考虑数据如何分布取决于数据的极端值全距XX最小值最大值7 8 9 107 8 9 1044四分位间距度量数据的离散程度Measure of Dispersion为第三和第一四分位数之差 四分位间距四分位间距=Q3-Q1包括排序数据处于中间位置50%的观测值不受极值影响45方差和标准差度量数据的离散程度Measures of Dispersion是最为常用的变异程度的度量涉及数据的分布状况
14、表示全部观测值相对于均值的平均变异程度 X=77.646样本方差公式分母是(n-1)。如果是总体方差就用N47样本标准差公式标准差为方差的平方根48变异系数度量相对离散程度(Measure of Relative Dispersion)表现了标准差相对于均值的比率用来比较两组或多组计量单位不同的数据的变异程度公式 49应用示例假如某班1小组期末考试数学成绩为:83,52,96,79,83,88,64,79,83,69试用上述方法描述该数学成绩的波动程度(volatility).50题解:全距和四分位间距全距X最大X最小965244四分位间距Q3Q1836914原数据:83 52 96 79 8
15、3 88 64 79 83 69排序数据:52 64 69 79 79 83 83 83 88 96排序位置:1234567891051题解:样本方差(Sample Variance)原数据:83 52 96 79 83 88 64 79 83 6952题解:样本标准差(Sample Standard Deviation)原数据:83 52 96 79 83 88 64 79 83 6953题解:变异系数(Coefficient of Variation)原数据:83 52 96 79 83 88 64 79 83 6954在EXCEL中计算变异趋势直接利用函数:F最大值:MAXF最小值:MI
16、NF标准差:STDEVF方差:VAR间接利用函数:F变异系数:STDEV/AVERAGE55在SPSS中计算变异趋势观测量概述:analyzereports cases summarize频数分析:AnalyzeDescriptive StatisticsFrequencies描述统计量:analyze-descriptive statistics-descriptive56基尼系数基尼系数是20世纪初意大利经济学家基尼根据洛伦茨曲线设计的判断收入分配平等程度的指标。收入分配越是趋向平等,基尼系数也越小,反之,收入分配越是趋向不平等,那么基尼系数也越大。联合国有关组织规定:若低于0.2表示收入
17、绝对平均;0.2-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收入差距较大;0.6以上表示收入差距悬殊。57收入基尼系数的经验范围差距悬殊差距悬殊差距悬殊差距悬殊差距很大差距较大相对合理比较平均绝对平均绝对平均1.00.90.80.70.60.50.40.30.20.10.058基尼系数的图形表示O 10 20 30 40 50 60 70 80 90 100 P(%)I(%)100908070605040302010ABY设实际收入分配曲线和收入分配绝对平等曲线之间的面积为A,实际收入分配曲线右下方的面积为B。并以A除以(A+B)的商表示不平等程度。这个数值被称为基尼系
18、数或称洛伦茨系数。如果A为零,基尼系数为零,表示收入分配完全平等;如果B为零则系数为1,收入分配绝对不平等。该系数可在零和1之间取任何值。收入分配越是趋向平等,洛伦茨曲线的弧度越小,基尼系数也越小,反之,收入分配越是趋向不平等,洛伦茨曲线的弧度越大,那么基尼系数也越大。59基尼系数的计算公式Gini系数的计算步骤:Step1:排序Step2:计算比重Step3:计算累积比重Step4:计算2倍的梯形面积Step5:计算基尼系数注意:此公式没有按照人口加权60基尼系数的例子计算我国各省人均GDP的基尼系数F(见课堂演示)61泰尔(Theil)系数泰尔(Theil)系数的优点可以将区域差异按产业结
19、构或地区结构进行多层次(组内组间)分解。采用经济规模进行加权62泰尔(Theil)系数的计算公式以省为单位的差异:以地区为单位的差异:以地区内的省份为单位的差异:63形状 Shape表明数据是如何分布的偏态Skew 与 对称Symmetry左偏:均值中位数对称(零偏度):均值=中位数左偏的均值 中位数 众数 对称的均值中位数众数右偏的众数 中位数 均值64盒须图 Box-and-Whisker Plot用5个度量值概括表述数据特征:Graphical Display of Data Using 5-Number Summary最小值、第一四分位、中位数、第三四分位、最大值65数据分布状况与盒须
20、图 右偏的右偏的Right-Skewed左偏的左偏的Left-Skewed对称的对称的Symmetric Q1 中位数 Q3 Q1 中位数 Q3Q1 中位数 Q366题解原数据:83 52 96 79 83 88 64 79 83 69排序数据:52 64 69 79 79 83 83 83 88 96排序位置:12345678910中位数81平均数77.6众数8367题解众数众数中位数中位数平均数平均数68阅读材料贺灿飞、梁进社:“中国区域经济差异的时空变化:市场化、全球化与城市化”,管理世界,2004年第8期,第8-17页。王蓉:“我国义务教育经费的地区性差异研究”,收入闵维方教授等编为教育提供充足的资源教育经济学国际研讨会论文集,人民教育出版社2002年10月。岳昌君,“经济发展水平的地区差异对教育资源配置的影响”,教育与经济,2003年第1期,第35-41页。从人口大国迈向人力资源强国,高等教育出版社,2003年2月,第一章。盛世明,“浅谈不公平程度的度量方法”,统计与决策,2004年第2期。69