第八章数据处理精选文档.ppt

上传人:石*** 文档编号:43979104 上传时间:2022-09-20 格式:PPT 页数:46 大小:3.48MB
返回 下载 相关 举报
第八章数据处理精选文档.ppt_第1页
第1页 / 共46页
第八章数据处理精选文档.ppt_第2页
第2页 / 共46页
点击查看更多>>
资源描述

《第八章数据处理精选文档.ppt》由会员分享,可在线阅读,更多相关《第八章数据处理精选文档.ppt(46页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第八章数据处理本讲稿第一页,共四十六页8.1 8.1 数据处理及前期准备数据处理及前期准备一、数据处理的概念三、数据处理的前期准备二、数据处理的意义本讲稿第二页,共四十六页数据处理及前期准备数据处理就是根据调查研究的目的与任务,对搜集到的各数据处理就是根据调查研究的目的与任务,对搜集到的各种数据进行审核与汇总,使之条理化、系统化,以符合数种数据进行审核与汇总,使之条理化、系统化,以符合数据分析的需要据分析的需要。1.1.1.1.数据处理的概念数据处理的概念数据处理的概念数据处理的概念2.2.数据处理的意义数据处理的意义数据处理有利于发现工作中的不足。数据处理有利于发现工作中的不足。有利于提高信

2、息资料的价值。有利于提高信息资料的价值。3.3.3.3.数据处理的前期准备数据处理的前期准备数据处理的前期准备数据处理的前期准备选择高效率的数据处理人员。选择高效率的数据处理人员。建立完善的工作制度。建立完善的工作制度。制定科学的工作标准。制定科学的工作标准。本讲稿第三页,共四十六页8.2 8.2 一般数据处理流程一般数据处理流程一、数据审核二、后编码三、数据录入四、数据文档的转换五、数据库清理六、数据库储存本讲稿第四页,共四十六页一般数据处理流程图一般数据处理流程图是否需要加入新变量是否需要加入新变量是是否否是是否否(1)数据审核)数据审核数据是否可数据是否可用用剔除或返还纠错剔除或返还纠错

3、(3)数)数 据录据录 入入(4)数据文档转换)数据文档转换(5)数据库清理)数据库清理(6)数据库储存)数据库储存加入新变量加入新变量(2)后编码)后编码本讲稿第五页,共四十六页1.1.数据审核数据审核数据审核数据审核数据资料的审核是数据资料处理的第一步工作。数据资料的审核是数据资料处理的第一步工作。审核方式审核方式审核的一般方法审核的一般方法l 资料收集过程中的审核。资料收集过程中的审核。l 资料回收后的审核。资料回收后的审核。l文字资料的审核方法。文字资料的审核方法。l数字资料的审核方法。数字资料的审核方法。一般数据处理流程图本讲稿第六页,共四十六页常见需审核的问题:问卷的某些部分填写不

4、完整或记录字迹不清楚;调查对象回答差异不大;返回的调查问卷本身丢失几页;问卷的回收超过时限;问卷的填写人员不符合调查要求;问卷存在明显不一致的答案;处理方式:对于样本量较少而调查对象又比较容易确认的不合格问卷,通常采用退回现场重新调查的方式;对于无法退回现场,缺失值较少且缺失值不是关键变量的少数问卷,进行填补确实值的处理;其他情况采用丢弃不合格问卷。本讲稿第七页,共四十六页2.2.后编码后编码后编码后编码编码指将问卷(或调查表)中的文字信息转化为计算机能编码指将问卷(或调查表)中的文字信息转化为计算机能识别的数字符号的过程,即给问卷或调查表的每一个题目识别的数字符号的过程,即给问卷或调查表的每

5、一个题目的每一个备选答案分配一个符码,符码通常是一个数字的每一个备选答案分配一个符码,符码通常是一个数字。指将问卷或编码表中的每一题目或变量对应的代码读到指将问卷或编码表中的每一题目或变量对应的代码读到磁盘等储存介质上,或通过键盘直接敲入计算机中磁盘等储存介质上,或通过键盘直接敲入计算机中。3.3.数据录入数据录入数据录入数据录入本讲稿第八页,共四十六页数据编码与录入的处理方式:数据编码与录入的处理方式:(1)单项选择题录入)单项选择题录入-根据题项附值,题内若有其他选根据题项附值,题内若有其他选项则转化为开放式问题模式录入。项则转化为开放式问题模式录入。(2)多项选择题录入)多项选择题录入

6、A多选项二分法多选项二分法-每个变量只有每个变量只有0或或1取值;取值;B多选项分类法多选项分类法-为多个答案分设变量。为多个答案分设变量。(3)开放式问题录入)开放式问题录入 A列出答案;列出答案;B合并答案;合并答案;C设置编码;设置编码;D选定编码。选定编码。本讲稿第九页,共四十六页 你为什么喜欢喝你为什么喜欢喝A品牌的啤酒?品牌的啤酒?1因为它口味好;因为它口味好;2它具有最好的味道;它具有最好的味道;3我喜欢他的口味;我喜欢他的口味;4我不喜欢其他啤酒太重的口味;我不喜欢其他啤酒太重的口味;5它最便宜;它最便宜;6它经常打折;它经常打折;7其他牌子酒使我胃不舒服;其他牌子酒使我胃不舒

7、服;8喝这种酒头不疼;喝这种酒头不疼;9我总是选择这个牌子的;我总是选择这个牌子的;10我已经喝了我已经喝了10多年了;多年了;11它是大多数朋友喝的品牌;它是大多数朋友喝的品牌;12我的朋友基本都喝它;我的朋友基本都喝它;13我没想过;我没想过;14不知道;不知道;15没有特殊的原因。没有特殊的原因。本讲稿第十页,共四十六页你为什么喜欢喝A品牌的啤酒?1因为它口味好;2它具有最好的味道;3我喜欢他的口味;4我不喜欢其他啤酒太重的口味;5他最便宜;6他经常打折;7其他牌子酒使我胃不舒服;8喝这种酒头不疼;9我总是选择这个牌子的;10我已经喝了10多年了;11他是大多数朋友喝的品牌;12我的朋友

8、基本都喝它;13我没想过;14不知道;15没有特殊的原因。回答类别描述回答编码口味好/喜欢味道1,2,3,41低/较低价格5,62不会引起头痛,胃痛7,83长期喝,习惯9,104朋友喝/受朋友影响11,125不知道13,14,156本讲稿第十一页,共四十六页4.4.数据文档的转换数据文档的转换数据文档的转换数据文档的转换数据文档的初始形态数据文档的初始形态 统计分析软件:如统计分析软件:如SASSAS、SPSSSPSS、MINITABMINITAB、SYSTATSYSTAT、EVIEWSEVIEWS 数据库管理软件:如:数据库管理软件:如:Microsoft ExcelMicrosoft Ex

9、cel、Lotus1-2-3Lotus1-2-3和和和和Quatro ProQuatro Pro 本讲稿第十二页,共四十六页5.5.5.5.数据库清理数据库清理数据库清理数据库清理目的:目的:目的:目的:不让有错误的数据进入统计分析过程。不让有错误的数据进入统计分析过程。数据库清理是对数据库文件做以下检查:数据库清理是对数据库文件做以下检查:l编码检查编码检查l一致性检查一致性检查l缺失值检查缺失值检查 一致性检查一致性检查-为了找出超出正常范围、逻辑上不合理或极端的为了找出超出正常范围、逻辑上不合理或极端的数值。如一般备选答案数值。如一般备选答案15,9为缺失值,若出现为缺失值,若出现8则错

10、。则错。缺失值检查缺失值检查-是存在明显错误、不合理数据、漏填数据项。是存在明显错误、不合理数据、漏填数据项。处理方式:均值代替、处理方式:均值代替、估计值代替、问卷删除、估计值代替、问卷删除、结对删除。结对删除。注:不同处理方式分析结果将有所不同。注:不同处理方式分析结果将有所不同。本讲稿第十三页,共四十六页6.6.6.6.数据库储存数据库储存数据库储存数据库储存是否需要给数据库加入新的变量。是否需要给数据库加入新的变量。数据库文档通常储存在磁盘等储存介质上,另外再用一张磁盘数据库文档通常储存在磁盘等储存介质上,另外再用一张磁盘或其他储存介质作为备份以保证安全或其他储存介质作为备份以保证安全

11、。本讲稿第十四页,共四十六页第第9 9章章 数据分析方法数据分析方法9.1 统计分析方法统计分析方法描述统计描述统计 9.2 统计分析方法统计分析方法推断统计推断统计 本讲稿第十五页,共四十六页9.1 9.1 统计分析方法统计分析方法描述统计描述统计一、频数分布表和统计图法三、多变量描述统计二、单变量描述统计本讲稿第十六页,共四十六页统计分析方法的选择:1、调研问题的性质描述性问题-如对某电视广告接触状况的反应;对某产品性能的评价;不同人对某品牌偏好差异等。采用频数分析和描述统计。关系性问题-如相关关系和因果关系。采用相关分析、回归分析、方差分析等。2、数据资料的性质品质变量-如性别、职业等。

12、采用列联分析、非参数检验等。数量变量-如年龄、收入、销售量、知名度等,即等距、等比量表,或次序量表进行数学转换后。可采用各种方法。本讲稿第十七页,共四十六页一、频数分布和统计图表1.1.1.1.频数分布频数分布频数分布频数分布指把总体按某一标志分组,并按一定顺序列出每个组的单位数,所指把总体按某一标志分组,并按一定顺序列出每个组的单位数,所形成的总体单位在各组间的分布;也称为形成的总体单位在各组间的分布;也称为次数分布次数分布次数分布次数分布或或分布数列分布数列分布数列分布数列。2.2.2.2.频数分布表频数分布表把把总总体中各个体中各个类别类别及其相及其相应应的的频频数、数、频频率及累率及累

13、计频计频率等指率等指标标用用汇总汇总表格的形式展示出来所形成表格表格的形式展示出来所形成表格。3.3.编制频数分布表的一般步骤编制频数分布表的一般步骤编制频数分布表的一般步骤编制频数分布表的一般步骤找出数据的找出数据的变动变动范范围围;确定确定组组数和数和组组距;距;确定确定组组限(上限、下限)和限(上限、下限)和组组中中值值;计计算算调查调查数据落入各数据落入各组组的的频频数和数和频频率。率。本讲稿第十八页,共四十六页4.4.统计图统计图统计图统计图是一种以点、是一种以点、线线条、面条、面积积等方法描述和等方法描述和显显示数据的形式,具有示数据的形式,具有直直观观、醒目、易于理解等特点,一般

14、由、醒目、易于理解等特点,一般由坐坐坐坐标标标标系系系系、图图图图形形形形和和图图图图例例例例三部三部分分组组成。成。5.5.常用的统计图有:常用的统计图有:条形条形条形条形图图图图、直方直方直方直方图图图图、饼图饼图饼图饼图、折折折折线图线图线图线图、趋势图趋势图趋势图趋势图、态态态态度度度度对对对对比比比比图图图图、轮轮轮轮廓形象廓形象廓形象廓形象图图图图等。等。一、频数分布和统计图表本讲稿第十九页,共四十六页编制频数分布表及绘制统计图时应注意的问题编制频数分布表及绘制统计图时应注意的问题编制频数分布表及绘制统计图时应注意的问题编制频数分布表及绘制统计图时应注意的问题 编制频数分布表和绘制

15、统计图只是对调查数据进行处理的初级阶段;编制频数分布表和绘制统计图只是对调查数据进行处理的初级阶段;编制频数分布表和绘制统计图只是对调查数据进行处理的初级阶段;编制频数分布表和绘制统计图只是对调查数据进行处理的初级阶段;编制频数分布表时,需要注意组数、组距及组限的确定问编制频数分布表时,需要注意组数、组距及组限的确定问编制频数分布表时,需要注意组数、组距及组限的确定问编制频数分布表时,需要注意组数、组距及组限的确定问题;题;题;题;不同的不同的不同的不同的统计图统计图统计图统计图一般都有其特定的适用范一般都有其特定的适用范一般都有其特定的适用范一般都有其特定的适用范围围围围,在实际应用时,应在

16、实际应用时,应在实际应用时,应在实际应用时,应根据数据性质及所反映问题的需要选择适宜的统计图。根据数据性质及所反映问题的需要选择适宜的统计图。根据数据性质及所反映问题的需要选择适宜的统计图。根据数据性质及所反映问题的需要选择适宜的统计图。本讲稿第二十页,共四十六页1.1.1.1.集中趋势集中趋势集中趋势集中趋势二、单变量描述统计指指调查调查数据的数据的频频数分布从两数分布从两边边向中向中间间集中的集中的趋势趋势,也称作,也称作趋趋趋趋中中中中性性性性。2.2.离散趋势离散趋势离散趋势离散趋势指指调查调查数据数据远远离其分布中心离其分布中心值值的程度。的程度。集中趋势指标反映调查数据的共性和集中

17、性,离散趋势集中趋势指标反映调查数据的共性和集中性,离散趋势指标反映调查数据的个性和分散性。调查数据的离散程指标反映调查数据的个性和分散性。调查数据的离散程度越高,用于描述数据集中趋势指标的代表性越差,使度越高,用于描述数据集中趋势指标的代表性越差,使用这些代表性指标进行统计分析的效果越差。用这些代表性指标进行统计分析的效果越差。本讲稿第二十一页,共四十六页l l简单算术平均数简单算术平均数简单算术平均数简单算术平均数根据原始数据计算根据原始数据计算根据原始数据计算根据原始数据计算3.3.集中趋势的常用测度指标集中趋势的常用测度指标集中趋势的常用测度指标集中趋势的常用测度指标平均数平均数平均数

18、平均数 又称均值,主要有算术平均数、调和平均数和几何平均又称均值,主要有算术平均数、调和平均数和几何平均数等计算方法,其中以算术平均数最为常用。数等计算方法,其中以算术平均数最为常用。l l加权算术平均数加权算术平均数加权算术平均数加权算术平均数根据分组数据计算根据分组数据计算根据分组数据计算根据分组数据计算二、单变量描述统计本讲稿第二十二页,共四十六页3.3.3.3.集中趋势的常用测度指标集中趋势的常用测度指标中位数中位数 指把一组数据按照从小到大的顺序排列后,位置指把一组数据按照从小到大的顺序排列后,位置居中的变量值,记为居中的变量值,记为 。l l计算原始数据的中位数:计算原始数据的中位

19、数:计算原始数据的中位数:计算原始数据的中位数:l l计算分组数据的众数:计算分组数据的众数:计算分组数据的众数:计算分组数据的众数:众数众数 指数据中出现次数最多的变量值,记为指数据中出现次数最多的变量值,记为 。当当当当 为奇数时:为奇数时:为奇数时:为奇数时:当当当当 为偶数时:为偶数时:为偶数时:为偶数时:为众数所在组的下限为众数所在组的下限为众数所在组的下限为众数所在组的下限 ,为众数所在组组距,为众数所在组组距,为众数所在组组距,为众数所在组组距,和和和和 分别为众分别为众分别为众分别为众数所在组变量值的次数与下一组和上一组变量值的次数之差。数所在组变量值的次数与下一组和上一组变量

20、值的次数之差。数所在组变量值的次数与下一组和上一组变量值的次数之差。数所在组变量值的次数与下一组和上一组变量值的次数之差。二、单变量描述统计本讲稿第二十三页,共四十六页标准差标准差 指调查数据中各变量值与其算术平均数离差平方的指调查数据中各变量值与其算术平均数离差平方的算术平均数的平方根,记为算术平均数的平方根,记为 。4.4.4.4.离散趋势的常用测度指标离散趋势的常用测度指标离散趋势的常用测度指标离散趋势的常用测度指标方差方差 指标准差的平方,记为指标准差的平方,记为 。l l对方差进行开方,即可得到标准差。对方差进行开方,即可得到标准差。对方差进行开方,即可得到标准差。对方差进行开方,即

21、可得到标准差。l l依据原始数据计算方差:依据原始数据计算方差:依据原始数据计算方差:依据原始数据计算方差:l l依据分组数据计算方差:依据分组数据计算方差:依据分组数据计算方差:依据分组数据计算方差:二、单变量描述统计本讲稿第二十四页,共四十六页4.4.离散趋势的常用测度指标离散趋势的常用测度指标离散趋势的常用测度指标离散趋势的常用测度指标四分位差四分位差 把调查数据按照从小到大的顺序排列后,用三把调查数据按照从小到大的顺序排列后,用三个四分位数点(个四分位数点()将其分为四个相等部分,高四分)将其分为四个相等部分,高四分位数点位数点 与低四分位数点与低四分位数点 之间的距离即为之间的距离即

22、为四分位差四分位差。变异系数变异系数 指调查数据的标准差与其算术平均数的比值,也称为指调查数据的标准差与其算术平均数的比值,也称为离散系数离散系数,主要用于比较不同类别数据的离散程度。,主要用于比较不同类别数据的离散程度。二、单变量描述统计本讲稿第二十五页,共四十六页对数据的集中趋势进行描述,应结合统计数据的实际分布状况,选对数据的集中趋势进行描述,应结合统计数据的实际分布状况,选对数据的集中趋势进行描述,应结合统计数据的实际分布状况,选对数据的集中趋势进行描述,应结合统计数据的实际分布状况,选用恰当的指标形式,以克服不同形式的测度指标在使用范围上的局用恰当的指标形式,以克服不同形式的测度指标

23、在使用范围上的局用恰当的指标形式,以克服不同形式的测度指标在使用范围上的局用恰当的指标形式,以克服不同形式的测度指标在使用范围上的局限性。限性。限性。限性。比较不同类别数据的离散程度时,应使用变异系数指标,比较不同类别数据的离散程度时,应使用变异系数指标,比较不同类别数据的离散程度时,应使用变异系数指标,比较不同类别数据的离散程度时,应使用变异系数指标,而不宜使用标准差、方差等反映数据离散程度的绝对量指而不宜使用标准差、方差等反映数据离散程度的绝对量指而不宜使用标准差、方差等反映数据离散程度的绝对量指而不宜使用标准差、方差等反映数据离散程度的绝对量指标。标。标。标。应用单变量描述统计方法时应注

24、意的问题应用单变量描述统计方法时应注意的问题应用单变量描述统计方法时应注意的问题应用单变量描述统计方法时应注意的问题 本讲稿第二十六页,共四十六页1.1.1.1.列联表列联表列联表列联表三、多变量描述统计是对两个或两个以上的分类变量进行交叉分类所形成的复合频数分是对两个或两个以上的分类变量进行交叉分类所形成的复合频数分是对两个或两个以上的分类变量进行交叉分类所形成的复合频数分是对两个或两个以上的分类变量进行交叉分类所形成的复合频数分布表。布表。布表。布表。2.2.2.2.二维列联表二维列联表二维列联表二维列联表 的一般形式的一般形式的一般形式的一般形式本讲稿第二十七页,共四十六页3.3.3.3

25、.相关分析相关分析相关分析相关分析是是是是研究研究研究研究变变变变量之量之量之量之间间间间相关关系密切程度的相关关系密切程度的相关关系密切程度的相关关系密切程度的统计统计统计统计方法。按表方法。按表方法。按表方法。按表现现现现形式不同,可形式不同,可形式不同,可形式不同,可以分以分以分以分为为为为线线线线性相关性相关性相关性相关和和和和非非非非线线线线性相关性相关性相关性相关;按相关的方向不同,可以分;按相关的方向不同,可以分;按相关的方向不同,可以分;按相关的方向不同,可以分为为为为正相正相正相正相关关关关和和和和负负负负相关相关相关相关。l散点图散点图 以直角坐标系的横轴代表自变量以直角坐

26、标系的横轴代表自变量x,以纵轴代表因变量,以纵轴代表因变量y,将两个变量间相对应的变量值用坐标点的形式描绘在坐标平面上将两个变量间相对应的变量值用坐标点的形式描绘在坐标平面上所形成的图形。所形成的图形。l相关系数相关系数 在直线相关的条件下,衡量两变量之间线性相在直线相关的条件下,衡量两变量之间线性相关程度的统计指标。关程度的统计指标。三、多变量描述统计本讲稿第二十八页,共四十六页4.4.4.4.回归分析回归分析回归分析回归分析是是是是研究因研究因研究因研究因变变变变量量量量对对对对自自自自变变变变量依量依量依量依赖赖赖赖关系的一种关系的一种关系的一种关系的一种统计统计统计统计分析方法,目的是

27、通分析方法,目的是通分析方法,目的是通分析方法,目的是通过过过过自自自自变变变变量的量的量的量的给给给给定定定定值值值值来估来估来估来估计计计计或或或或预测预测预测预测因因因因变变变变量的均量的均量的均量的均值值值值。l一元线性回归一元线性回归l多元线性回归多元线性回归 绘出散点图绘出散点图绘出散点图绘出散点图建立一般模型建立一般模型建立一般模型建立一般模型估计方程参数估计方程参数估计方程参数估计方程参数检验回检验回检验回检验回归方程的拟合优度归方程的拟合优度归方程的拟合优度归方程的拟合优度检验参数的显著性检验参数的显著性检验参数的显著性检验参数的显著性检验回归方检验回归方检验回归方检验回归方

28、程的显著性程的显著性程的显著性程的显著性分析回归方程的残差分析回归方程的残差分析回归方程的残差分析回归方程的残差预测预测预测预测n n一般实现步骤一般实现步骤一般实现步骤一般实现步骤l非线性回归非线性回归三、多变量描述统计本讲稿第二十九页,共四十六页应用相关与回归分析方法时应注意的问题应用相关与回归分析方法时应注意的问题应用相关与回归分析方法时应注意的问题应用相关与回归分析方法时应注意的问题 相关分析的目的是测定变量之间相关关系的方向和程度,相关分析的目的是测定变量之间相关关系的方向和程度,相关分析的目的是测定变量之间相关关系的方向和程度,相关分析的目的是测定变量之间相关关系的方向和程度,回归

29、回归回归回归分析的目的是利用回归模型进行预测和控制。分析的目的是利用回归模型进行预测和控制。分析的目的是利用回归模型进行预测和控制。分析的目的是利用回归模型进行预测和控制。进行相关分析时,不能仅凭相关系数的大小来解释变量之间的相关程进行相关分析时,不能仅凭相关系数的大小来解释变量之间的相关程进行相关分析时,不能仅凭相关系数的大小来解释变量之间的相关程进行相关分析时,不能仅凭相关系数的大小来解释变量之间的相关程度,否则有可能会得出不切实际的结论。度,否则有可能会得出不切实际的结论。度,否则有可能会得出不切实际的结论。度,否则有可能会得出不切实际的结论。在实际操作中,建立回归模型的过程非常复杂,在

30、实际操作中,建立回归模型的过程非常复杂,在实际操作中,建立回归模型的过程非常复杂,在实际操作中,建立回归模型的过程非常复杂,应应应应用用用用时时时时必必必必须结须结须结须结合具合具合具合具体情况体情况体情况体情况进进进进行探行探行探行探讨讨讨讨和分析和分析和分析和分析 。三、多变量描述统计本讲稿第三十页,共四十六页例题例题 下表是一份数据,其中的y是保险公司职员一周平均加班时数,x是一周新签保单数,这里希望能确立一个模型来研究新签保单和员工加班时数之间的关系。实例数实例数据据周序号周序号 新签保单新签保单(X)(X)加班时数加班时数(Y)(Y)1 825 3.5 2 215 1 3 1070

31、4 4 550 2 5 480 1 6 920 3 7 1350 4.5 8 352 1.5 9 670 3 10 1215 5 本讲稿第三十一页,共四十六页 表表计算一元回归的中间变量计算一元回归的中间变量 周序号周序号 新签保单新签保单(X)(X)加班时数加班时数(Y)(Y)X2Y2XY 1 825 3.5 680625 12.25 2887.5 2 215 1 46225 1 215 3 1070 4 1144900 16 4280 4 550 2 302500 4 1100 5 480 1 230400 1 480 6 920 3 846400 9 2760 7 1350 4.5 18

32、22500 20.25 6075 8 352 1.5 123904 2.25 528 9 670 3 448900 9 2010 10 1215 5 1476225 25 6075 本讲稿第三十二页,共四十六页查表求F的临界值,将F值与其比较,判断模型(回归方程)是否可用。查表知,当 即置信度为0.95或95%时,分子自由度为1,分母自由度为8的F临界值为11.26,F值远远大于F临界值,所以模型的可信度不低于95%,在此标准水平上模型是完全可用的,因为在此标准水平上因变量与自变量之间确实存在线性相关关系。表表一元回归方差分析表一元回归方差分析表 平方和平方和 自由度自由度 平均平方和平均平方

33、和 F F值值回归回归 16.882 1 16.682 72.396 残差残差 1.843 8 0.230 总和总和 18.525 9 72.360.23016.682=平均残差平方和平均残差平方和平均回归平方和平均回归平方和MSEMSRF本讲稿第三十三页,共四十六页 9.2 9.2统计分析方法统计分析方法推断统计推断统计 一、参数估计 三、方差分析二、假设检验本讲稿第三十四页,共四十六页一、参数估计参数估计参数估计参数估计参数估计指在满足一定精度和把握程度的条件下,利用样本信息来估指在满足一定精度和把握程度的条件下,利用样本信息来估计总体特征的统计分析方法。计总体特征的统计分析方法。1.1.

34、1.1.基本原理基本原理基本原理基本原理2.2.基本形式基本形式基本形式基本形式点估计点估计点估计点估计 指直接用样本估计量作为总体未知参数的估计量;指直接用样本估计量作为总体未知参数的估计量;该方法简便、直观,但无法提供误差程度的准确信息。该方法简便、直观,但无法提供误差程度的准确信息。区间估计区间估计区间估计区间估计 指以区间的形式给出总体参数的取值范围和推指以区间的形式给出总体参数的取值范围和推断的把握程度;该方法弥补了点估计不能给出推断把握程断的把握程度;该方法弥补了点估计不能给出推断把握程度的不足。度的不足。本讲稿第三十五页,共四十六页3.3.3.3.常用的置信区间的形式常用的置信区

35、间的形式(1 1)对于正态总体,当总体方差对于正态总体,当总体方差 已知时,总体已知时,总体均值均值 的置信度为的置信度为 的置信区间为:的置信区间为:(2 2)对于正态总体,当总体方差)对于正态总体,当总体方差 未知时,总体未知时,总体均值均值 的置信度为的置信度为 的置信区间为:的置信区间为:一、参数估计本讲稿第三十六页,共四十六页应用参数估计方法时应注意的问题应用参数估计方法时应注意的问题应用参数估计方法时应注意的问题应用参数估计方法时应注意的问题 进行参数估计时,应根据所研究对象的变异程度及分析任务进行参数估计时,应根据所研究对象的变异程度及分析任务进行参数估计时,应根据所研究对象的变

36、异程度及分析任务进行参数估计时,应根据所研究对象的变异程度及分析任务的要求,确定一个合理的误差范围;估计误差不能超过一定的要求,确定一个合理的误差范围;估计误差不能超过一定的要求,确定一个合理的误差范围;估计误差不能超过一定的要求,确定一个合理的误差范围;估计误差不能超过一定的限度,但也不是越小越好。的限度,但也不是越小越好。的限度,但也不是越小越好。的限度,但也不是越小越好。进行参数估计时,应根据所研究问题的性质和工作需要,确进行参数估计时,应根据所研究问题的性质和工作需要,确进行参数估计时,应根据所研究问题的性质和工作需要,确进行参数估计时,应根据所研究问题的性质和工作需要,确定一个可以接

37、受的估计置信度;估计的可信度不能太低,也定一个可以接受的估计置信度;估计的可信度不能太低,也定一个可以接受的估计置信度;估计的可信度不能太低,也定一个可以接受的估计置信度;估计的可信度不能太低,也不宜过高。不宜过高。不宜过高。不宜过高。本讲稿第三十七页,共四十六页二、假设估计1.1.1.1.基本原理基本原理基本原理基本原理假设检验假设检验假设检验假设检验是利用样本信息判断对总体参数的假设是否成立的统是利用样本信息判断对总体参数的假设是否成立的统是利用样本信息判断对总体参数的假设是否成立的统是利用样本信息判断对总体参数的假设是否成立的统计推断方法,有计推断方法,有计推断方法,有计推断方法,有参数

38、假设检验参数假设检验参数假设检验参数假设检验和和和和非参数假设检验非参数假设检验非参数假设检验非参数假设检验两种形式;其两种形式;其两种形式;其两种形式;其基本理论依据是基本理论依据是基本理论依据是基本理论依据是“小概率事件原理小概率事件原理小概率事件原理小概率事件原理”。2.2.2.2.总体参数假设检验的基本步骤总体参数假设检验的基本步骤总体参数假设检验的基本步骤总体参数假设检验的基本步骤 根据待根据待根据待根据待检验检验检验检验的的的的问题问题问题问题,提出原假,提出原假,提出原假,提出原假设设设设和和和和备择备择备择备择假假假假设设设设;选选选选取适当的取适当的取适当的取适当的显显显显著

39、性水平著性水平著性水平著性水平 ;确定检验用的统计量和拒绝域的形式;确定检验用的统计量和拒绝域的形式;确定检验用的统计量和拒绝域的形式;确定检验用的统计量和拒绝域的形式;求出拒绝域;求出拒绝域;求出拒绝域;求出拒绝域;根据样本观测值;判断接受或是拒绝原假设。根据样本观测值;判断接受或是拒绝原假设。根据样本观测值;判断接受或是拒绝原假设。根据样本观测值;判断接受或是拒绝原假设。本讲稿第三十八页,共四十六页应用假设检验方法时应注意的问题应用假设检验方法时应注意的问题应用假设检验方法时应注意的问题应用假设检验方法时应注意的问题 应根据研究目的和数据资料的性质选用恰当的检验方法。应根据研究目的和数据资

40、料的性质选用恰当的检验方法。应根据研究目的和数据资料的性质选用恰当的检验方法。应根据研究目的和数据资料的性质选用恰当的检验方法。资料性质不同,样本大小不同,所适用的检验统计量及假资料性质不同,样本大小不同,所适用的检验统计量及假资料性质不同,样本大小不同,所适用的检验统计量及假资料性质不同,样本大小不同,所适用的检验统计量及假设检验方法也会有所不同设检验方法也会有所不同设检验方法也会有所不同设检验方法也会有所不同。结论不能绝对化。结论不能绝对化。结论不能绝对化。结论不能绝对化。是否拒绝是否拒绝是否拒绝是否拒绝 ,要根据值,要根据值,要根据值,要根据值 与与与与 水平的关水平的关水平的关水平的关

41、系来判断,而系来判断,而系来判断,而系来判断,而 值又往往需要根据所研究问题的特点来灵值又往往需要根据所研究问题的特点来灵值又往往需要根据所研究问题的特点来灵值又往往需要根据所研究问题的特点来灵活确定。活确定。活确定。活确定。本讲稿第三十九页,共四十六页例题:例题:现代人喝茶越来越多,对茶也越来越讲究。此调查目的就是研究在公寓小区里开设一家茶叶店计划的可行性。该小区总共有5000人,抽选是按不放回简单随机抽样的随机数表方法。右表的数据是调查资料的一部分,50个人从一个公寓小区抽选。数据处理人员据此进行常规统计分析,以便得到该小区居民的整体情况。本讲稿第四十页,共四十六页实例实例数据数据本讲稿第

42、四十一页,共四十六页(一)计数(一)计数计算出符合特定条件的全部个体数目。从上表可以很容易地看出,男性 =24女性 =26(二)比例(二)比例 比例比例=整体整体部分部分男性比例男性比例(n1/n)100%24/50100%48%本讲稿第四十二页,共四十六页(三)分布(三)分布 为了计算年龄分布,需规定分组标准,据此进行分组,在这之前要首先按年龄进行排序。组别组别 1 2 3 4 5 年龄年龄=60频数频数 18 14 8 6 4 本讲稿第四十三页,共四十六页(四)平均数与标准差(四)平均数与标准差 概括反映分布状况的两个基本指标,平均数说明样本或总体某一变量的一般水平,标准差则刻划样本或总体某一变量相对于平均数的差异大小。本讲稿第四十四页,共四十六页(五)估计总体参数(五)估计总体参数 样本参数计算以计数和加总为基础,总体参数估计以比例和平均数为基础,并且需要考虑与样本均值的抽样分布和样本比例的抽样分布有关系,因此要计算抽样方差 和进行区间估计:本讲稿第四十五页,共四十六页谢谢!谢谢!本讲稿第四十六页,共四十六页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁