第三章的基本统计分析精选文档.ppt

上传人:石*** 文档编号:87584265 上传时间:2023-04-16 格式:PPT 页数:91 大小:4.30MB
返回 下载 相关 举报
第三章的基本统计分析精选文档.ppt_第1页
第1页 / 共91页
第三章的基本统计分析精选文档.ppt_第2页
第2页 / 共91页
点击查看更多>>
资源描述

《第三章的基本统计分析精选文档.ppt》由会员分享,可在线阅读,更多相关《第三章的基本统计分析精选文档.ppt(91页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第三章的基本统计分析本讲稿第一页,共九十一页基本统计分析通过基本统计分析,能够使分析者掌握数据的基本统计特征,把握数据的总体分布形态。基本统计分析的结论对今后进一步的数据建模,将起到重要的指导和参考作用频数分析计算基本描述统计量(分布特征测度)列联分析(交叉分组下的频数分析)多选项分析比率分析两种方式数值计算图形绘制本讲稿第二页,共九十一页基本统计分析在Analyze-Descriptive Statistics菜单中,包括:Frequencies:频数分析过程,特色是产生频数表(主要针对分类变量)Descriptives:数据描述过程,进行一般性的统计描述(主要针对数值型变量)Explore

2、:数据探察过程,用于对数据概况不清时的探索性分析Crosstabs:多维频数分布交叉表分析(列联表分析)Ratio statistics:比率分析本讲稿第三页,共九十一页频数分析目的 了解变量取值的状况,粗略把握变量值的分布状况研究被调查者的特征(如:性别、年龄、职业)通过这些分析,能够在一定程度上反映出样本是否具有总体代表性,抽样是否存在系统偏差等,并以此证明以后相关问题分析的代表性和可信性方法编制频数分布表:包括计算频数、百分比、累计百分比绘制统计图形:条形图、饼图、直方图本讲稿第四页,共九十一页频数分布表内容频数(Frequency)变量值落在某个区间(或某个类别)中的次数百分比(Per

3、cent)各频数占总样本量的百分比有效百分比(Valid Percent)各频数占总有效样本量的百分比 有效样本量=总样本-缺失样本量 在不包含缺失值个案的所有个案中各变量取值频数的比例累计百分比(Cumulative Percent)各百分比逐级累加起来的结果。最终取值为百分之百本讲稿第五页,共九十一页统计图柱形图或条形图(Bar Chart)用宽度相同的条形的高度或长短来表示频数分布变化的图形适用于定序和定类变量的分析柱形图的纵坐标或条形图的横坐标可以表示频数,也可以表示百分比分为单式图和复式图等形式本讲稿第六页,共九十一页饼图(Pie Chart)用圆形及圆内扇形的面积来表示频数百分比变

4、化的图形有利于研究事物内在结构组成等问题饼图中圆内的扇形面积可以表示频数,也可以表示百分比本讲稿第七页,共九十一页直方图(Histograms)用矩形的面积来表示频数分布变化的图形适用于定距型变量的分析可以在直方图上附加正态分布曲线,便于与正态分布的比较本讲稿第八页,共九十一页频数分析基本操作(1)菜单选项:analyze-descriptive statistics-frequencies(2)选择几个待分析的变量到variables框.(3)按chart选项,选择所需要绘制的统计图形(4)按Format按钮,调整频数分布表中数据的输出顺序本讲稿第九页,共九十一页 输出百分位数:输出四分位数

5、,显示25%、50%、75%的百分位数;将数据平均分为所设定的相等等份,可输入2100 的整数,如键入4则输出第25、50、75百分位数自定义百分位数,可输入0100 的整数。离散趋势分布形态栏集中趋势栏输出统计量对话框本讲稿第十页,共九十一页Format 对话框对话框控制频数表输出的分类数量。默认为10多变量框中可设定多变量表格输出的格式设置频数表输出的格式设置频数表输出的格式选择频数表中排列顺序按变量升序排列,此为默认按变量降序排列按变量各种取值发生的频数的升序排列按变量各种取值发生的频数的降序排列本讲稿第十一页,共九十一页multiple variables单选框组 如果选择了两个以上变

6、量作频数表,则compare variables可以将所有变量的结果在同一个频数表过程输出结果中显示,便于互相比较organize output by variables则将结果在不同的频数表过程输出结果中显示,每一个变量一张表本讲稿第十二页,共九十一页频数分析中的扩展功能计算分位数分位数是变量在不同分位点上的取值。分位点在0100之间一般使用较多的是四分位点(Quartiles),即将所有数据按升序排序后平均等分成四份,各分位点依次是25%,50%,75%。于是,四分位数分别是25%,50%,75%分位点对应的变量值此外,还有八分位数、十六分位数等本讲稿第十三页,共九十一页计算分位数适用于定

7、序数据数据按升序排序后,找到若干个分位点上的变量值quartiles:计算四分位数25%(QL)、50%(中位数)、75%(QU)cut points for n equal groups:n等份percentile:自定义百分位点分位数的应用 在排除极端值影响的条件下,通过计算分位数差,比较两组样本数据的离散程度例:(QL=50,QU=80)和 (QL=70,QU=75)的比较本讲稿第十四页,共九十一页例题3.1利用住房状况问卷调查数据分析被调查家庭中户主的从业状况和目前所住房屋的产权状况分析人居住房面积的分布状况,并对本市户口和外地户口家庭进行比较本讲稿第十五页,共九十一页目标一:分析从业

8、状况和目前所住房屋的产权状况 (1)产权状况和从业状况两个变量都是定类型变量,可通过基本频数分析实现。(2)职业变量的取值(分类)数目较多,为使频数分布表更一目了然,应对内容的输出顺序进行调整,单击Format按钮,选择Descending counts按频数的降序输出。(3)单击Chart按钮指定输出产权变量的饼图和职业变量的柱形图。本讲稿第十六页,共九十一页目标二:分析人均住房面积的分布状况,并对本市户口和外地户口家庭进行比较。1、分析思路:(1)由于人均住房面积数据为定距型变量,直接采用频数分析不利于对其分布形态的把握,因此考虑依据第三章中的数据分组功能对数据分组后再编制频数分布表。(2

9、)进行数据拆分,并分别计算本地户口和外地户口的人均住房面积的四分位数,并通过四分位数比较两者分布上的差异。本讲稿第十七页,共九十一页2、分析过程:(1)数据分组,将人均住房面积重新分成四组,四组区间分别为,少于10平方米,1020平方米,2030平方米,30平方米以上。分组后进行频数分析并绘制带正态曲线的直方图。(2)利用SPSS的频数分析计算所有样本的人均住房面积的四分位数;然后,按照户口类型对数据进行拆分(Split file)并重新计算分位数,分别得到本地户口和外地户口的人均住房面积的四分位数。本讲稿第十八页,共九十一页基本描述统计量目的精确把握变量的总体分布状况,了解数据的集中趋势、离

10、散趋势、对称程度、陡峭程度常见的基本描述统计量有三大类:刻画集中趋势的统计量刻画离散趋势的统计量刻画分布形态的统计量本讲稿第十九页,共九十一页刻画集中趋势的描述统计量集中趋势是指一组数据向某一中心值靠拢的倾向计算刻画集中趋势的描述统计量正是要寻找能够反映数据一般水平的“代表值”或“中心值”均值(Mean):即算术平均数,是反映某变量所有取值的集中趋势或平均水平的指标。如某企业职工的平均月收入。其计算公式为适用于定距数据。特点:利用了全部数据,易受极端值的影响本讲稿第二十页,共九十一页刻画集中趋势的描述统计量中位数(Median):即一组数据按升序排序后,处于中间位置上的数据值。如评价社会的老龄

11、化程度时众数(Mode):即一组数据中出现次数最多的数据值。如生产鞋的厂商在制定各种型号鞋的生产计划时应该运用众数本讲稿第二十一页,共九十一页刻画离散程度的描述统计量离散程度反映各变量值远离其中心值的程度(离散程度),它从另一个侧面说明了集中趋势测度值的代表程度。如果数据都紧密地集中在“中心值”的周围,数据的离散程度较小,说明这个“中心值”对数据的代表性好如果数据仅是比较松散地分布在“中心值”的周围,数据的离散程度较大,则此“中心值”说明数据特征是不具有代表性的本讲稿第二十二页,共九十一页刻画离散程度的描述统计量全距(Range):也称极差,是数据的最大值(Maximum)与最小值(Minim

12、um)之间的绝对离差。方差(Variance):各变量值与算数平均数离差平方的算术平均数。其计算公式为标准差(Standard Deviation:Std Dev):表示变量取值距离均值的平均离散程度的统计量。其计算公式为本讲稿第二十三页,共九十一页均值标准误差(Standard Error of Mean)样本均值作为抽样样本的平均数也与总体均值之间存在差异。若干次抽样后会得到若干个不同的样本均值,当样本容量足够大时,这些均值服从正态分布,即X XN N(,2/2/n n)可见,样本均值与总体均值的平均差异(离散)程度(方差)为/n。于是,均值标准误差的数学定义为:因此,均值标准误差是描述样

13、本均值与总体均值之间平均差异程度的统计量。样本数越大,样本均值的离散程度越小,对真值的估计越准确本讲稿第二十四页,共九十一页刻画分布形态的描述统计量数据的分布形态主要指数据分布是否对称,偏斜程度如何,分布陡峭程度等偏度(skewness):描述某变量分布形态的偏斜程度和方向的统计量偏度为0表示对称;大于0表示正偏差大(右偏)小于0表示负偏差大(左偏)偏度绝对值越大,表示数据分布形态的偏斜程度越大本讲稿第二十五页,共九十一页刻画分布形态的描述统计量峰度(kurtosis):描述某变量所有变量值分布形态陡缓程度的统计量峭度为0表示与标准正态分布峭度相同大于0表示比标准正态分布陡,尖峰小于0表示比标

14、准正态分布缓;平峰本讲稿第二十六页,共九十一页扁平分布扁平分布扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布偏态偏态偏态偏态峰态峰态峰态峰态左偏分布左偏分布左偏分布左偏分布右偏分布右偏分布右偏分布右偏分布与标准正态与标准正态与标准正态与标准正态分布比较!分布比较!分布比较!分布比较!本讲稿第二十七页,共九十一页计算基本描述统计量的操作(1)菜单选项:analyze-descriptive statistics-descripive(2)选择将参加计算的数值型数值型变量名到variables框。(3)按Options按钮指定计算哪些基本描述统计量,选择相应的选项本讲稿第二十八页

15、,共九十一页Options 对话框对话框 基本统计量当Variables框中有多个变量时,此框确定其输出顺序:按Variables框中的排列顺序输出按各变量的字母顺序输出按均值的升序排列按均值的降序排列分布本讲稿第二十九页,共九十一页例题 3.2利用住房状况问卷调查数据,对人均住房面积计算基本描述统计量,并分别对本市户口和外地户口家庭进行比较分析:首先按照户口对数据进行拆分(Split file),然后计算人均住房面积的基本描述统计量本讲稿第三十页,共九十一页数据标准化处理用于对异常值的判断新变量被称为标准化值或Z分数,反映的是样本值与均值的差是几个标准差单位小于0表示在平均水平下,大于0反之

16、3准则:如果标准化值的绝对值大于3,则认为是异常值本讲稿第三十一页,共九十一页数据标准化处理正态分布的数据标准化后呈标准正态分布数值分布在正负一个标准差之内的可能性为68.2%数值分布在正负两个标准差之内的可能性为95.4%数值分布在正负三个标准差之内的可能性为99.7%如果异常数的总比例大于0.3%,则认为该组数据存在一定的不均衡save standardized values as variables选项将变量作标准化后,结果存入名为“Z+原变量名”的新变量中本讲稿第三十二页,共九十一页例题 3.3利用住房状况问卷调查数据,分析人均住房面积是否存在不均衡现象分析:假设人均住房面积服从正态分

17、布,跟据3原则,异常值通常为3个标准差范围之外的值,可通过对数据的标准化处理来判断通过标准化可以得到一系列新变量值对新变量进行排序并浏览其标准化值的取值情况,可以发现z分数值得绝对数大于3的家庭是存在的。对其分组为三组:z人均面积-3,-3z人均面积3。并进行频数分析本讲稿第三十三页,共九十一页交叉分组下的频数分析(列联表分析)例:户口状况与购买意向之间有关联吗?(两变量)例:学习成绩与性别有关联吗?(两变量)例:职业、性别、爱逛商店有关联吗?(三变量)目的了解多个变量在不同取值下的分布情况,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系基本任务根据收集到的样本数据编制交叉列联表在

18、交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析本讲稿第三十四页,共九十一页编制交叉列联表交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表文化程度文化程度合计合计职称123411113213432136433合计445316行变量列变量频数行标题列边缘分布本讲稿第三十五页,共九十一页列联表(contingency table)1.由两个以上的变量交叉分类的频数分布表2.行变量的类别用 r 表示,ri 表示第 i 个类别3.列变量的类别用 c 表示,cj 表示第 j 个类别4.每种组合的观察频数用 fij 表示5.表中列出了行变量和列变量的所有可能的组合,所以称为列联表6.

19、一个 r 行 c 列的列联表称为 r c 列联表本讲稿第三十六页,共九十一页列联表的结构(2 2 列联表)列列(cj)合计合计j=1j=2i=1f11f12f11+f12i=2f21f22f21+f22合合计计f11+f21f12+f22n列列列列(c cj j)行行行行 (r ri i)本讲稿第三十七页,共九十一页列联表的结构(r c 列联表的一般表示)列列(cj)合计合计j=1j=2i=1f11f12r1i=2f21f22r2:合合计计c1c2n列列列列(c cj j)行行行行(r ri i)f f f fijijijij 表示第表示第表示第表示第 i i i i 行第行第行第行第 j j

20、 j j 列的观察频数列的观察频数列的观察频数列的观察频数本讲稿第三十八页,共九十一页观察值的分布边缘分布行边缘分布行观察值的合计数的分布例如,赞成改革方案的共有279人,反对改革方案的141人列边缘分布列观察值的合计数的分布例如,四个分公司接受调查的人数分别为100人,120人,90人,110人公司1公司2公司3公司4合计赞成68755779279反对32453331141合计10012090110420本讲稿第三十九页,共九十一页观察值的分布条件分布与条件频数变量 X 条件下变量 Y 的分布,或在变量 Y 条件下变量 X 的分布每个具体的观察值称为条件频数公司1公司2公司3公司4合计赞成6

21、8755779279反对32453331141合计10012090110420本讲稿第四十页,共九十一页百分比分布本讲稿第四十一页,共九十一页百分比分布1.条件频数反映了数据的分布,但不适合对比2.为在相同的基数上进行比较,可以计算相应的百分比,称为百分比分布百分比分布行百分比:行的每一个观察频数除以相应的行合计数(fij/ri)列百分比:列的每一个观察频数除以相应的列合计数(fij/cj)总百分比:每一个观察值除以观察值的总个数(fij/n)本讲稿第四十二页,共九十一页百分比分布(图示)一分公司一分公司二分公司二分公司三分公司三分公司四分公司四分公司合计合计赞赞成成该该方案方案6875577

22、927924.4%26.9%20.4%28.3%100%68.0%62.5%63.3571.8%66.4%16.2%17.8%13.6%18.8%66.4%反反对该对该方案方案3245333114122.7%31.9%23.4%22.0%100%32.0%37.5%36.7%28.2%33.6%7.6%10.7%7.9%7.4%33.6%合合计计1001209011047023.8%28.6%21.4%26.2%100%总百分比总百分比总百分比总百分比列百分比列百分比列百分比列百分比行百分比行百分比行百分比行百分比本讲稿第四十三页,共九十一页层变量(Layer)本讲稿第四十四页,共九十一页交叉

23、分组下的频数分析的基本操作菜单选项AnalyzeDescriptive StatisticsCrosstabs本讲稿第四十五页,共九十一页该框中的变量作该框中的变量作为分布表中的行为分布表中的行变量和列变量。变量和列变量。该框中的变量作为控该框中的变量作为控制变量,决定频数分制变量,决定频数分布表中的层,可有多布表中的层,可有多个控制变量。个控制变量。显示每一显示每一组中各变组中各变量的分类量的分类条形图。条形图。只输出统只输出统计量,不计量,不输出多维输出多维列联表。列联表。Crosstabs 对话框对话框本讲稿第四十六页,共九十一页交叉分组下的频数分析的基本操作如果进行二维列联表分析,则将

24、行变量选择到Row(s)框中,将列变量选择到Column(s)框中。如果Row(s)和Column(s)框中有多个变量名,SPSS会将行列变量一一配对后产生多张二维列联表。如果进行三维或多维列联表分析,则将其他变量作为控制变量选到Layer框中。多控制变量间可以是同层次的,也可以是逐层叠加的,可通过Previous或Next按钮确定控制变量间的层次关系。本讲稿第四十七页,共九十一页交叉分组下的频数分析的基本操作选择Display clustered bar charts选项,指定绘制各变量交叉分组下频数分布条形图。选择Suppress tables表示不输出列联表,在仅分析行列变量间关系时可选

25、择该选项。本讲稿第四十八页,共九十一页Crosstabs的的Cell Display 对话框对话框选择在列联表中输出的统计量,包括选择在列联表中输出的统计量,包括观测量数、百分比、残差观测量数、百分比、残差输出观测量的实际数量输出观测量的实际数量如果行和列变量在统计上是如果行和列变量在统计上是独立的或不相关的,那么会独立的或不相关的,那么会在单元格中输出期望的观测在单元格中输出期望的观测值的数量。值的数量。输出单元格中观测量的数目占输出单元格中观测量的数目占整行全部观测量数目的百分比整行全部观测量数目的百分比输出单元格中观测值的数目占整列输出单元格中观测值的数目占整列全部观测量数目的百分比全部

26、观测量数目的百分比输出单元格中观测量的数目占全部输出单元格中观测量的数目占全部观测量数目的百分比观测量数目的百分比计算非标准化残差计算非标准化残差计算标准化残差计算标准化残差计算调整后残差计算调整后残差本讲稿第四十九页,共九十一页交叉分组下的频数分析的基本操作单击Cells按钮指定列联表单元格中的输出内容单击Format按钮指定列联表各单元格的输出排列顺序。Ascending表示以行变量取值的升序排列,是SPSS默认项;Descending表示以行变量取值的降序排列。单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系Unstandardized为非标准化剩余,定义为 观测频数

27、期望频数Standardized为标准化剩余,又称Pearson剩余本讲稿第五十页,共九十一页交叉列联表行列变量间关系的分析目的在列联表的基础上作进一步的分析,可以得到行变量和列变量之间是否有联系、联系的紧密程度如何等更深层次的信息。通过列联表分析,检验行列变量之间是否独立工资收入工资收入低中高年龄段青40000中05000老00600工资收入工资收入低中高年龄段青00500中06000老40000本讲稿第五十一页,共九十一页卡方检验大多数情况下,观测频数分散在列联表的各个单元格中,不容易直接发现行列变量之间的关系强弱程度,此时就要借助非参数检验方法和度量变量间相关程度的统计量等手段。通常用的

28、方法是卡方()检验。统计量用于检验列联表中变量间拟合优度和独立性用于测定两个分类变量之间的相关程度 为观察频数,为期望频数(Expected Count)本讲稿第五十二页,共九十一页期望频数RT是指定单元格所在行的观测频数合计CT是指定单元格所在列的观测频数合计n是观测频数的合计期望频数的分布反映的是行列变量互不相干下的分布P95本讲稿第五十三页,共九十一页本讲稿第五十四页,共九十一页期望频数例如,具有本科学历的高级工程师的期望频数是0.75的计算公式是3*4/16=0.75。期望频数可以理解为,总共16个职工的学历分布是25%:25%:31.3%:18.8%,如果遵从这种学历的总体比例关系,

29、高级职称三人的学历分布也应为25%:25%:31.3%:18.8%,于是期望频数为3*25%、3*25%、3*31.3%、3*18.8%。同理可以理解,总共16个职工的职称分布为18.8%:25%:37.5%:18.8%,本科学历4人的期望频数分别为4*18.8%、4*25%、4*37.5%、4*18.8%本讲稿第五十五页,共九十一页卡方检验卡方统计量观测值的大小取决于列联表的单元格子数观测频数与期望频数的总差值在列联表确定的情况下,卡方统计量观测值的大小取决于观测频数与期望频数的总差值总差值越大时,卡方值也就越大,实际分布与期望分布的差距越大,表明行列变量之间越相关反之表明行列变量之间越独立

30、本讲稿第五十六页,共九十一页卡方检验基本步骤(1)提出原假设H0:行列变量之间无关联或相互独立(2)构造卡方统计量统计量服从(r-1)*(c-1)个自由度的卡方分布count:观察(实际)频数expected count:期望频数(期望频数反映的是H0成立情况下的数据分布特征)Residual:剩余(观察频数-期望频数)(3)计算卡方统计量的值,并得到该统计量值的概率P值(4)决策。概率P与显著性水平比较,小于等于则拒绝H0,否则不能拒绝本讲稿第五十七页,共九十一页(4)结论和决策对统计推断做决策通常有两种方式:根据统计量观测值和临界值比较的结果进行决策。如果卡方观测值大于临界值,则认为实际分

31、布与期望分布之间的差距显著,可以拒绝原假设,断定列联表的行列变量间不独立,存在相关关系;反之,接受原假设。根据统计量观测值的概率p值和显著性水平 比较的结果进行决策。如果p值小于等于 ,则认为卡方观测值出现的概率是很小的,是一个本不应发生的小概率事件,但却发生了,因此拒绝原假设,断定列联表的行列变量间不独立,存在依存关系;反之,接受原假设。本讲稿第五十八页,共九十一页什么是P 值?1.是一个概率值;P(tti)p (i=1,2)2.如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率;3.被称为观察到的(或实测的)显著性水平。4.在实际应用中,用p值更方便,即概率值提供的信息也是很有用

32、的,p值是统计量精确的显著性水平。本讲稿第五十九页,共九十一页双侧检验的P 值 /2 2 /2 2 Z拒绝拒绝拒绝拒绝拒绝拒绝拒绝拒绝H HH0 00值值值临界值临界值临界值计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量临界值临界值临界值1/2 1/2 1/2 P P P 值值值1/2 1/2 1/2 P P P 值值值本讲稿第六十页,共九十一页左侧检验的P 值H HH0 00值值值临界值临界值临界值 样本统计量样本统计量样本

33、统计量拒绝域拒绝域拒绝域抽样分布抽样分布1-1-1-置信水平置信水平置信水平置信水平计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量P P P 值值值本讲稿第六十一页,共九十一页右侧检验的P 值H HH0 00值值值临界值临界值临界值 拒绝域拒绝域拒绝域抽样分布抽样分布抽样分布抽样分布1-1-1-置信水平置信水平置信水平置信水平置信水平置信水平计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量P P P 值值值本讲稿第六十二页,共九十一页利用 P 值进行检验(决策准则)若p-值

34、 ,不拒绝 H0若p-值 multiple response-define sets从原变量中选取被分解的变量(数值型)到variables in sets框指定被分解的变量是按多选项二分法(dichotomize)分解还是按多选项分类法(categories)分解的为变量集命名。系统自动在名字前加字符$.本讲稿第七十六页,共九十一页用哪个数值来表示选中该选项变量取值的最小值和最大值本讲稿第七十七页,共九十一页多选项频数分析的基本操作步骤wFrequencies:对多选变量集进行频数分析。从mult response sets中把待分析的多选项变量集选择到tables for框中指定是否处理缺

35、失数据wCrosstabs:对多选变量集与其他变量集或与原基本变量进行交叉表分析本讲稿第七十八页,共九十一页多选项交叉分组下的频数分析菜单选项:analyze-multiple response-crosstabs选择列联表的行变量并定义取值范围,或选多选项变量集为行变量选择列联表的列变量并定义取值范围,或选多选项变量集为列变量选择列联表的控制变量并定义取值范围,或选多选项变量集为控制变量。本讲稿第七十九页,共九十一页多选项交叉分组下的频数分析分母为个案数分母为应答数Options:Match variable across response sets:如果列联表的行列变量均为多选项变量集时,

36、第一个变量集的第一个变量与第二个变量集的第一个变量作交叉分组,第一个变量集的第二个变量与第二个变量集的第二个变量作交叉分组依次类推本讲稿第八十页,共九十一页例题 3.5为研究影响老年人购买养老保险的因素,进行问卷调查。现要求根据所获得的数据,分析老年人购买商业养老保险的原因。多选项频数分析多选项问题分解并设置成多个变量后,需定义多选项变量集本讲稿第八十一页,共九十一页例题 3.6利用保险市场调查数据,分析不同工作单位性质人员购买商业养老保险的原因多选项交叉分组下的频数分析列变量为购买原因行变量为工作单位性质本讲稿第八十二页,共九十一页本讲稿第八十三页,共九十一页比率分析比率分析用于对两变量间变

37、量值比率变化的描述分析,适用于定距型变量例如:根据某年各地区保险业务情况的数据,分析各地区财产保险业务的保费收入占全部业务保费收入的比例情况生成各个地区财产保险业务的保费收入占全部业务保费收入的比率变量,然后对该比率变量计算基本描述统计量(如均值、中位数、标准差、全距等),进而刻画比率变量的集中趋势和离散程度SPSS的比率分析除能够完成上述分析外,还提供了其他相对比描述指标,大致也属于集中趋势描述指标和离散程度描述指标的范畴本讲稿第八十四页,共九十一页比率分析加权比率均值(Weighted mean):两变量均值的比,属集中趋势描述指标。AAD(Average Absolute Deviati

38、on)平均绝对离差:是对比率变量离散程度的描述,计算公式为 R为比率值;M为比率变量的中位数;N为样本量离散系数(Coefficient of Dispersion,COD):对比率变量离散程度的描述 为平均比率本讲稿第八十五页,共九十一页比率分析变异系数(COV):用于对比率变量离散程度的描述基于均值的变异系数(MeanCentered COV):标准差除以均值基于中位数的变异系数(Median Centered COV)本讲稿第八十六页,共九十一页比率分析的基本操作步骤(1)选择菜单AnalyzeDescriptive StatisticsRadio,出现窗口分子分母分组变量本讲稿第八十七

39、页,共九十一页比率分析的基本操作步骤(2)将比率变量的分子选择到Numerator框中,将比率变量的分母选到Denominator框中。(3)如果做不同组间的比率比较,则将分组变量选择到Group Variable框中。(4)单击Statistics按钮指定输出哪些关于比率的描述统计量,出现如下窗口:本讲稿第八十八页,共九十一页本讲稿第八十九页,共九十一页例题3.7根据某年各地区保险业务情况的数据,分析各类地区财产保险业务的保费收入占全部业务保费收入的比例情况本讲稿第九十页,共九十一页小结频数分析频数分布表:频数、百分比、有效百分比、累计百分比统计图:柱形图(条形图)、饼图、直方图计算分位数:描述数据离散程度计算基本描述统计量集中趋势:均值、中位数、众数、均值标准误差离散程度:样本标准差、样本方差、全距分布形态:偏度、峰度数据标准化处理:3原则列联分析两个或两个以上变量交叉分组后的频数分布表行百分比、列百分比、总百分比变量间关系的分析-卡方检验、期望频数本讲稿第九十一页,共九十一页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁