《直线回归与相关分析.pptx》由会员分享,可在线阅读,更多相关《直线回归与相关分析.pptx(72页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第一节第一节 回归和相关的概念回归和相关的概念 1.1.函数关系与统计关系函数关系与统计关系 2.2.自变数与依变数自变数与依变数 3.3.回归分析和相关分析回归分析和相关分析4.4.两个变数资料的散点图两个变数资料的散点图 第1页/共72页u、t、F、检验差异显著性检验,只涉及一个变量。回归与相关分析研究变量间关系的统计方法。第2页/共72页两个变量之间的关系:函数关系(确定性关系)回归关系统计关系(不确定关系)相关关系1.1.函数关系与统计关系函数关系与统计关系第3页/共72页1885年,年,高尔登高尔登在英国皇家学会上发表了关于回在英国皇家学会上发表了关于回归现象的演说,并于归现象的演说
2、,并于1886年发表的年发表的在遗传的身在遗传的身长中向中等身长的回归长中向中等身长的回归论文中,正式论文中,正式提出回归概提出回归概念念。“相关相关”的概念最初是由进化论创始人达尔文的概念最初是由进化论创始人达尔文(Charles Darwin,18091882)于)于1859年在年在物种起源物种起源中提出的。中提出的。1885年,达尔文的表第高尔登(年,达尔文的表第高尔登(Francis Galton,18221911)在英国皇家学会上发表了关于身)在英国皇家学会上发表了关于身长遗传中相关现象的演说,首次赋予长遗传中相关现象的演说,首次赋予“相关相关”一词一词以新的涵义。以新的涵义。第4页
3、/共72页2.自变数与依变数第5页/共72页回归分析:研究变量之间的联系形式的一种统计方法。联系形式用回归方程来表示。由方程次数不同来分线性回归方程次数为1,如:yabx。非线性回归方程次数不为1,如:yaxb(b1)。由方程的自变量个数来分一元回归只有一个自变量,如:yabx,yaxb多元回归自变量个数多于1,如:yb0b1x1bmxm3.回归分析和相关分析第6页/共72页一个自变量一个自变量一个自变量一个自变量两个及两个以上自变量两个及两个以上自变量两个及两个以上自变量两个及两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归第7页/共72页相关关系 如果两个变数并不
4、是原因和结果的关系,而呈现一种共同变化的特点,则称这两个变数间存在相关关系。相关关系中并没有自变数和依变数之分。如在玉米穗长与穗重的关系中,它们是同步增长、互有影响的,既不能说穗长是穗重的原因,也不能说穗重决定穗长。在这种情况下,X和Y可分别用于表示任一变数。(X和Y 均有误差存在)第8页/共72页相关分析:研究变量之间的联系程度和联系性质的一种统计方法。程度:变量间关系密切程度。变量关系性质:正(负)相关方向一致(相反)一元直线相关(简单相关)相关分析复相关多元线性相关偏相关第9页/共72页u将计算回归方程为基础的统计分析方法称为将计算回归方程为基础的统计分析方法称为回回归分析归分析,将计算
5、相关系数为基础的统计分析方,将计算相关系数为基础的统计分析方法称为法称为相关分析相关分析。u原则上两个变数中原则上两个变数中Y Y含有试验误差而含有试验误差而X X不含试验不含试验误差时着重进行误差时着重进行回归分析回归分析;Y Y和和X X均含有试验误均含有试验误差时则着重去进行差时则着重去进行相关分析相关分析。u它们的它们的界限并不十分严格界限并不十分严格,因为在回归分析中,因为在回归分析中包含有相关分析的信息,在相关分析中也包含包含有相关分析的信息,在相关分析中也包含有回归分析的信息有回归分析的信息第10页/共72页 函数关系 有精确的数学表达式 (确定性的关系)直线回归分析 一元回归分
6、析 变量间的关系 因果关系 曲线回归分析(回归分析)多元回归分析 多元线性回归分析 统计关系 多元非线性回归分析 (非确定性的关系)简单相关分析 直线相关分析 相关关系 复相关分析 (相关分析)多元相关分析 偏相关分析第11页/共72页散点图作用:(1)两个变数之间的关系(有关/无关)(2)关系类型(线性关系/非线性关系)(3)相关的性质与密切程度(4)异常值的存在4.4.两个变数资料的散点图两个变数资料的散点图第12页/共72页散点图第13页/共72页Graphing the dataFittingthebeststraightlineNo relationshipRelationship
7、but not straight-linedNegative linear relationshipPositive linear relationshipWhich one?Need criterion第14页/共72页一个自变量一个自变量一个自变量一个自变量两个及两个以上自变量两个及两个以上自变量两个及两个以上自变量两个及两个以上自变量回归模型多元回归一元回归线性线性回归回归非线性回归线性回归非线性回归回归分析:研究变量之间的联系形式的一种统计方法。联系形式用回归方程来表示。第二节 简单回归分析第15页/共72页一、直线回归方程一、直线回归方程二、直线回归的假设测验和区间估计二、直线回归的
8、假设测验和区间估计三、直线回归的矩阵求解三、直线回归的矩阵求解第二节 简单回归分析第16页/共72页第17页/共72页Example:Area of a yeast colony on successive days.Area(y)Time days(x)HLSlope(b)=H/LaIntercept(at x=0)00第18页/共72页Method第19页/共72页PP.159第20页/共72页第21页/共72页例9.1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4月中旬旬平均温度累积值(x,旬度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果
9、于表9.1。试计算其直线回归方程。x累积温y盛发期35.534.131.740.336.840.231.739.244.212169273139-1第22页/共72页解:一级统计数PP.160第23页/共72页二级统计数注:回归与相关分析中,一般要求中间结果保留46位小数。第24页/共72页b=1.0996表明累积温每升高(减少)1,将使一代三化螟蛾的盛发期提前(延迟)约1.1天。回归方程:第25页/共72页注意,由于实测区间为31.731.7,44.244.2,当 31.731.7或 44.244.2时,的变化是否还符合 的规律,还必须提供新的依据。回归截距 =48.5485=48.5485
10、的意义为:若3 3月下旬的积温为0 0,则一代三化螟盛发期为48.548548.5485,即在6 6月27-27-2828日。第26页/共72页xy第27页/共72页三、回归关系的显著性检验检验x与y是否有真实的回归关系。H0:0HA:0F测验:回 归 关 系引起的变异依变量y的总变异其它因素引起的变异第28页/共72页xy回归平方和,记作U或 SS回离回归平方和(偏差平方和)记作Q 或 SS离第29页/共72页=0第30页/共72页因为()第31页/共72页所以其中,回归平方和,记作U或SS回离回归平方和(偏差平方和)记作Q或SS离第32页/共72页xy回归平方和,记作U或 SS回离回归平方
11、和(偏差平方和)记作Q 或 SS离第33页/共72页所以,SSySS回SS离相应地,dfydf回df离其中,dfyn1df回1df离dfydf回n2变异来源变异来源DFSSMSFF0.01回回 归归1SS回回MSRMSR/MSe离离 回回 归归n-2SS离离MSe总总 变变 异异n-1SSTPP.164PP.164第34页/共72页各项平方和的实用计算公式:pp.162第35页/共72页S2回SS回,S2离Sy/x-回归估计标准误,是表示回归估计精度的重要统计数。S离大(或小),由回归方程估计 y 的精度就低(或高)。pp.161-162第36页/共72页FF0.05接受不显著。当F0.05F
12、 F0.01,所以否定H0,推断回归关系极显著,即表明累积温x与一代三化螟蛾盛发期 y 具有真实的直线关系。PP.164PP.164第39页/共72页t测验:数统可证:当分子自由度1时,F与t有如下关系:Ft2其中,叫做回归系数标准误。查临界 t 值用离回归自由度df离n2。PP.165PP.165第40页/共72页上例,已知:b=1.0996,SSx=144.6356,SS离=74.6670,n=9解:t0.05(7)=2.36df=n2=92=7t0.01(7)=3.50因为|t|t0.01(7),所以否定H0,推断回归关系极显著,即表明累积温与一代三化螟蛾盛发期具有真实的直线关系。PP.
13、164PP.164第41页/共72页PP.165PP.165第42页/共72页第43页/共72页(二)直线回归的区间估计第44页/共72页参数参数第45页/共72页第46页/共72页第47页/共72页第48页/共72页第49页/共72页b b的方差的方差第50页/共72页第51页/共72页估计量的方差第52页/共72页第53页/共72页预测值的方差为:第54页/共72页第55页/共72页置信区间和预测区间的图示 第56页/共72页第57页/共72页1.进入LR模式:inv键+mode键+2键2.清零:inv键+AC键3.按xi,yi顺序输数据:例.1 35.5+(键、12+RUN键、34.1+
14、(键、16+RUN键,44.2+(键、-1+RUN键利用CASIO fx3600计算器进行直线回归与相关分析第58页/共72页4.获得结果:获得结果:INV键键+7键键,8键键,9键键,获得相应数字键下方棕色获得相应数字键下方棕色指标结果指标结果(A、B、r)INV键键+4键键,5键键,6键键,获得相应数字键下方棕色获得相应数字键下方棕色指标结果指标结果(、yn、yn-1)Kout键键+4键键,5键键,6键键,获得相应数字键下方黑色获得相应数字键下方黑色指标结果指标结果(y2、y、xy)第59页/共72页INTERCEPT(known_ys,known_xs)计算两组数据的回归截距计算两组数据
15、的回归截距SLOPE(known_ys,known_xs)计算两组数据的斜率计算两组数据的斜率LINEST(known_ys,known_xs,const,stats)计算两组数据回归截距和计算两组数据回归截距和回归系数回归系数CORREL(array1,array2)计算两组数据的相关系数计算两组数据的相关系数COVAR(array1,array2)计算两组数据的协方差计算两组数据的协方差EXCEL电子表格提供的部分粘帖函数第60页/共72页利用数据分析工具第61页/共72页(五五)直线回归的数学模型和基本假定直线回归的数学模型和基本假定直线回归模型中,直线回归模型中,Y Y 总体的每一个值
16、由以下三部分总体的每一个值由以下三部分组成:组成:回归截距回归截距 ,回归系数回归系数 ,Y Y变数的变数的随机误差随机误差 。总体直线回归的数学模型:总体直线回归的数学模型:N N(0(0,)。相应的样本线性组成为:。相应的样本线性组成为:(97)(98)第62页/共72页回归分析时的假定:回归分析时的假定:(1)(1)Y Y 变数是随机变数,而变数是随机变数,而X X 变数则是没有误差的变数则是没有误差的固定变数固定变数,至少和,至少和Y Y 变数比较起来变数比较起来X X 的误差小到可的误差小到可以忽略。以忽略。(2)(2)在任一在任一X X 上都存在着一个上都存在着一个Y Y 总体总体
17、(可称为条件总可称为条件总体体),它是作正态分布的,其平均数,它是作正态分布的,其平均数 是是X X 的线的线性函数:性函数:(99)第63页/共72页 的样本估计值,与的样本估计值,与X X 的关系就是的关系就是线性回归方线性回归方程程(9(91)1)。(3)(3)所有的所有的Y Y 总体都总体都具有共同的方差具有共同的方差 ,而直线回,而直线回归总体具有归总体具有 。试验所得的一组观察值。试验所得的一组观察值(x xi i,y yi i )只是只是 中的一个随机样本。中的一个随机样本。(4)(4)随机误差随机误差 相互独立,相互独立,并作正态分布,具有并作正态分布,具有第64页/共72页四
18、、回归方程的应用方向1.预测:由x去预测y。这在产量预测、病虫害预测预报等方面应用较多。例,一代三化螟蛾盛发期y与三至四月积温x的回归方程如下:48.54851.0996x假设某年的积温x35,则48.54851.09963510.062510.1即该虫的盛发期约为5月20日(以10/5为0)左右。第65页/共72页2.控制:由y去控制x。这主要在制定生产措施时用。例,某作物的产量y与施肥量x的回归方程如下:391.936.62x若希望产量y600斤/亩,则施肥量至少要多少斤/亩?由391.936.62x600可推出x(斤/亩)第66页/共72页第67页/共72页第68页/共72页第69页/共72页注:实际应用中,预测应结合误差和概率进行区间估计。应用回归方程时,自变量x的取值范围只限于原观察值的变化范围。样本容量n应尽可能的大,至少要大于5。第70页/共72页1 1、确立预测目标,寻找影响因素、确立预测目标,寻找影响因素2 2、收集整理因变量和自变量的有关资料、收集整理因变量和自变量的有关资料3 3、建立回归预测模型、建立回归预测模型4 4、进行显著性检验、进行显著性检验5 5、绘制回归直线进行预测、绘制回归直线进行预测回归分析步骤回归分析步骤第71页/共72页感谢您的观看!第72页/共72页