《统计案例教案.pdf》由会员分享,可在线阅读,更多相关《统计案例教案.pdf(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1.11.1 回归分析的基本思想及其初步应用一回归分析的基本思想及其初步应用一教学要求教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.教学重点教学重点:了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法相关指数和残差分析.教学难点教学难点:解释残差变量的含义,了解偏差平方和分解的思想.教学过程教学过程:一、复习准备一、复习准备:1.提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?2.复习:函数关系是一种确定性关系,而相关关系是一种非确定性关系.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方
2、法,其步骤:收集数据作散点图求回归直线方程利用方程进行预报.二、讲授新课:二、讲授新课:1.1.教学例题:教学例题:例例 1 1 从某大学中随机选取 8 名女大学生,其身高和体重数据如下表所示:编号1216557315750417054517564616561715543817059身高/cm165体重/kg48求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm 的女大学生的体重.分析思路教师演示学生整理706050体重/kg150155160165身高/cm170175180403020100第二步:求回归方程第二步:求回归方程第三步:代值计算第三步:代值计算第一步
3、:作散点图第一步:作散点图 提问:身高为 172cm 的女大学生的体重一定是吗?不一定,但一般可以认为她的体重在左右.解释线性回归模型与一次函数的不同事实上,观察上述散点图,我们可以发现女大学生的体重y和身高x之间的关系并不能用一次函数y bx a来严格严格刻画因为所有的样本点不共线,所以线性模型只能近似地刻画身高和体重的关系.在数据表中身57kg 和 61kg,高为 165cm 的 3 名女大学生的体重分别为48kg、如果能用一次函数来描述体重与身高的关系,那么身高为 165cm 的 3 名女在学生的体重应相同.这就说明体重不仅受身高的影响还受其他因素的影响,把这种影响的结果e即残差变量或随
4、机变量引入到线性函数模型中,得到线性回归模型y bx a e,其中残差变量e中包含体重不能由身高的线性函数解释的所有部分.当残差变量恒等于 0 时,线性回归模型就1变成一次函数模型.因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式形式.2.2.相关系数相关系数:相关系数的绝对值越接近于1,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是有意义.3.3.小结:小结:求线性回归方程的步骤、线性回归模型与一次函数的不同.1.11.
5、1 回归分析的基本思想及其初步应用二回归分析的基本思想及其初步应用二教学要求教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.教学重点教学重点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.教学难点教学难点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.教学过程教学过程:一、复习准备一、复习准备:1由例 1 知,预报变量体重的值受解释变量身高或随机误差的影响.2为了刻画预报变量体重的变化在多大程度上与解释变量身高有关?在多大程度上与随机误差有关?我们引入了评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.二、讲
6、授新课:二、讲授新课:1.1.教学教学总偏差平方和、残差平方和、回归平方和总偏差平方和、残差平方和、回归平方和:1 1总偏差平方和总偏差平方和:所有单个样本值与样本均值差的平方和,即SST(yi y)2.i1n残差平方和:残差平方和:回归值与样本值差的平方和,即SSE(yi yi)2.i1n回归平方和:回归平方和:相应回归值与样本均值差的平方和,即SSR(yi y)2.i1n2 2学习要领:学习要领:注意yi、yi、y的区别;预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和,即(yi1ni y)(yi yi)(yi y)2;22i1i1nn当总偏差平方和相对固定时,
7、残差平方和越小,则回归平方和越大,此时模型的拟合效果越好;对于多个不同的模型,我们还可以引入相关指数R21(yi1ni1ni yi)2来刻画回归的效果,它表示解释变量(y2.2.教学例题:教学例题:i y)2对预报变量变化的奉献率.R2的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.2例例 2 2 关于x与Y有如下数据:xy230440560650870为了对x、Y两个变量进行统计分析,现有以下两种线性模型:y 6.5x17.5,y 7x17,试比较哪一个模型拟合的效果更好.分析:分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然
8、后再进行比较,从而得出结论.答案答案:R121效果较好.3.3.小结:小结:分清总偏差平方和、残差平方和、回归平方和,初步了解如何评价两个不同模型拟合效果的好坏.(yi yi)2(y y)ii1i15251551 0.845,R2211000(y y)ii52(y y)ii1i1512180 0.82,84.5%82%,所以甲选用的模型拟合10001.11.1 回归分析的基本思想及其初步应用三回归分析的基本思想及其初步应用三教学要求教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.教学重点教学重点:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在
9、解决实际问题的过程中寻找更好的模型的方法.教学难点教学难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较.教学过程教学过程:一、复习准备一、复习准备:1.给出例例 3 3:一只红铃虫的产卵数y和温度x有关,现收集了 7 组观测数据列于下表中,试建立y与x之间的回归方程.温度x/C2123112521272429663211535325产卵数y/个7学生描述步骤,教师演示2.讨论讨论:观察右图中的散点图,发现样本点并没有分布在某个带状区域产卵数内,即两个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的关系.二、讲授新课:二、讲授新课:1.
10、1.探究非线性回归方程确实定:探究非线性回归方程确实定:35030025020015010050001020温度3040 如果散点图中的点分布在一个直线状带形区域,可以选线性回归模型来建模;如果散点图中的点分布在一个曲线状带形区域,就需选择非线性回归模型来建模.根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y=C1eC2x的周围其中c1,c2是待定的参数,故可用指数函数模型来拟合这两个变量.3 在上式两边取对数,得ln y c2x lnc1,再令z ln y,则z c2x lnc1,而z与x间的关系如下:Xz21232527293235z76观察z与x的散点图,可以发现变换后样本点
11、分布在一条直线的附近,因此可以用线性回归方程来拟合.利用计算器算得a 3.843,b 0.272,z与x间的线性回归方程为54321001020 x3040z 0.272x3.843,因此红铃虫的产卵数对温度的非线性回归方程为y e0.272x3.843.利用回归方程探究非线性回归问题,可按“作散点图建模确定方程”这三个步骤进行.其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题.2.2.小结:小结:用回归方程探究非线性回归问题的方法、步骤.三、稳固练习:三、稳固练习:为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:天数 x/天繁殖个数 y/个1621232544959
12、561901用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图;2试求出预报变量对解释变量的回归方程.答案:答案:所求非线性回归方程为y=e0.69x1.112.1.1 1.1 回归分析的基本思想及其初步应用四回归分析的基本思想及其初步应用四教学要求教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.教学重点教学重点:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法,了解可用残差分析的方法,比较两种模型的拟合效果.教学难点教学难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的
13、模型进行比较.教学过程教学过程:一、复习准备一、复习准备:1.提问:在例 3 中,观察散点图,我们选择用指数函数模型来拟合红铃虫的产卵数y和温度x间的关系,还可用其它函数模型来拟合吗?t441y752962511217298411024122524661153252.讨论:能用二次函数模型y c3x2c4来拟合上述两个变量间的关系吗?令t x2,则y c3t c4,此时y与t间的关系如y40030020010000500t100015004下:观察y与t的散点图,可以发现样本点并不分布在一条直线的周围,因此不宜用线性回归方程来拟合它,即不宜用二次曲线y c3x2c4来拟合y与x之间的关系.小结
14、:小结:也就是说,我们可以通过观察变换后的散点图来判断能否用此种模型来拟合.事实上,除了观察散点图以外,我们也可先求出函数模型,然后利用残差分析的方法来比较模型的好坏.二、讲授新课:二、讲授新课:1.1.教学残差分析:教学残差分析:残差:残差:样本值与回归值的差叫残差,即ei yi yi.残差分析残差分析:通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.残差图:残差图:以残差为横坐标,以样本编号,或身高数据,或体重估计值等为横坐标,作出的图形称为残差图.观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度
15、越窄,模型拟合精度越高,回归方程的预报精度越高.2.2.例例 3 3 中的残差分析:中的残差分析:计算两种模型下的残差一般情况下,比较两个模型的残差比较困难某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反,故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果.残差平残差平方和越小的模型,拟合的效果越好方和越小的模型,拟合的效果越好.由于两种模型下的残差平方和分别为 1450.673 和 15448.432,故选用指数函数模型的拟合效果远远优于选用二次函数模型.当然,还可用相关指数相关指数刻画回归效果3.3.小结:小结:残差分析的步骤、作用1.21.2 独立性
16、检验的基本思想及其初步应用一独立性检验的基本思想及其初步应用一教学要求教学要求:通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示在吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高,让学生亲身体验独立性检验的实施步骤与必要性.教学重点教学重点:理解独立性检验的基本思想及实施步骤.5教学难点教学难点:了解独立性检验的基本思想、了解随机变量K 2的含义.教学过程教学过程:一、复习准备一、复习准备:回归分析的方法、步骤,刻画模型拟合效果的方法相关指数、残差分析、步骤.二、讲授新课:二、讲授新课:1.1.教学与列联表相关的概念:教学与列联表相关的概念:分类
17、变量:变量的不同“值”表示个体所属的不同类别的变量称为分类变量.分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等.分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义.如用“0”表示“男”,用“1”表示“女”.列联表:分类变量的汇总统计表频数表.一般我们只研究每个分类变量只取两个值,这样的列联表称为22.如吸烟与患肺癌的列联表:2.2.教学三维柱形图和二维条形图的概念:教学三维柱形图和二维条形图的概念:.由列联表可以粗略估计出吸烟者和不吸烟者患肺癌的可能性存在差异 教师在课堂上用教师在课堂
18、上用 EXCELEXCEL 软件演示三维软件演示三维柱形图和二维条形图,引导学生观察这两类图形的特征,并分析由图形得出的结论柱形图和二维条形图,引导学生观察这两类图形的特征,并分析由图形得出的结论3.3.独立性检验的基本思想:独立性检验的基本思想:独立性检验的必要性为什么中能只凭列联表的数据和图形下结论?:列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用列联表检验的方法确认所得结论在多大程度上适用于总体.独立性检验的步骤略及原理与反证法类似:反证法要证明结论 A假设检验备择假设 H1不吸烟吸烟总计不患肺癌患肺癌777520999874424991总计781721489965在
19、A 不成立的前提下进行推理在 H1不成立的条件下,即H0成立的条件下进行推理推出矛盾,意味着结论A 成立推出有利于 H1成立的小概率事件概率不超过的事件发生,意味着 H1成立的可能性可能性为1很大没有找到矛盾,不能对A 下任何结论,即反证法不成功 上例的解决步骤第一步:提出假设检验问题H0:吸烟与患肺癌没有关系H1:吸烟与患肺癌有关系推出有利于 H1成立的小概率事件不发生,接受原假设n(ad bc)2第二步:选择检验的指标K 它越小,原假设“H0:吸烟与患肺癌没有关(a b)(c d)(a c)(b d)26系”成立的可能性越大;它越大,备择假设“H1:吸烟与患肺癌有关系”成立的可能性越大.第
20、三步:查表得出结论P(k2k)k1.21.2 独立性检验的基本思想及其初步应用二独立性检验的基本思想及其初步应用二教学要求教学要求:通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示在吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高,让学生亲身体验独立性检验的实施步骤与必要性.教学重点教学重点:理解独立性检验的基本思想及实施步骤.教学难点教学难点:了解独立性检验的基本思想、了解随机变量K 2的含义.教学过程教学过程:教学过程教学过程:一、复习准备一、复习准备:独立性检验的基本步骤、思想二、讲授新课:二、讲授新课:1.1.教学例教学例 1 1:例例
21、1 1 在某医院,因为患心脏病而住院的665 名男性病人中,有214 人秃顶;而另外772 名不是因为患心脏病而住院的男性病人中有 175 名秃顶.分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?第一步:第一步:教师引导学生作出列联表,并分析列联表,引导学生得出“秃顶与患心脏病有关”的结论;第二步:第二步:教师演示三维柱形图和二维条形图,进一步向学生解释所得到的统计结果;第三步:第三步:由学生计算出K 2的值;第四步:第四步:解释结果的含义.通过第 2 个问题,向学生强调“样本只能代表相应总体”,这里的数据来自于医院的住院病人,因此题目中的结论能够很好地
22、适用于住院的病人群体,而把这个结论推广到其他群体则可能会出现错误,除非有其它的证据说明可以进行这种推广.2.2.教学例教学例 2 2:例例 2 2 为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300 名学生,得到如以下联表:男喜欢数学课程37不喜欢数学课程85总计1227女总计3572143228178300由表中数据计算得到K 2的观察值k 4.513.在多大程度上可以认为高中生的性别与是否数学课程之间有关系?为什么?学生自练,教师总结学生自练,教师总结强调:强调:使得P(K23.841)0.05成立的前提是假设“性别与是否喜欢数学课程之间没有关系”.如果这个前提不成立,上面的概率估计式就不一定正确;结论有 95%的把握认为“性别与喜欢数学课程之间有关系”的含义;在熟练掌握了两个分类变量的独立性检验方法之后,可直接计算K 2的值解决实际问题,而没有必要画相应的图形,但是图形的直观性也不可无视.3.3.小结:小结:独立性检验的方法、原理、步骤三、稳固练习:三、稳固练习:某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:请问有多大把握认为“高中生学习状况与生理健康有关”?不优秀优秀总计不健康413778健康626296922总计66733310008