《S统计分析.ppt》由会员分享,可在线阅读,更多相关《S统计分析.ppt(178页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、实验目的实验目的实验内容实验内容学习如何应用学习如何应用R软件解决统计问题软件解决统计问题1 1、统计模型、方法简介统计模型、方法简介 2 2、应用实例应用实例3 3、实验作业、实验作业S统计分析统计分析统计模型简介 这一节我们简单介绍S的统计模型。S中实现了几乎所有常见的统计模型,而且多种模型可以用一种统一的观点表示和处理。这方面S-PLUS较全面,它实现了许多最新的统计研究成果,R因为是自愿无偿工作所以统计模型部分还相对较欠缺。事实上,许多统计学家的研究出的统计算法都以S-PLUS程序发表,因为S语言是一种特别有利于统计计算编程的语言。学习这一节需要我们具备线型模型、线型回归、方差分析的基
2、本知识。第9章 一元线性回归9.1 变量间关系的度量变量间关系的度量 9.2 一元线性回归一元线性回归9.3 利用回归方程进行估计和预测利用回归方程进行估计和预测9.4 残差分析残差分析函数关系1.是一一对应的确定关系2.设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因变量3.各观测点落在一条线上 x xy y9.1 变量间的关系函数关系(几个例子)函数关系的例子函数关系的例子某某种种商商品品的的销销售售额额(y y)与与销销售售量量(
3、x x)之之间间的的关关系系可表示为可表示为 y y=pxpx (p p 为单价为单价)圆圆 的的 面面 积积(S)(S)与与 半半 径径 之之 间间 的的 关关 系系 可可 表表 示示 为为S S=R R2 2 企企业业的的原原材材料料消消耗耗额额(y y)与与产产量量(x x1 1)、单单位位产产量量消消耗耗(x x2 2)、原原材材料料价价格格(x x3 3)之之间间的的关关系系可可表表示为示为y y=x x1 1 x x2 2 x x3 3 相关关系(correlation)1.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定3.当变量 x 取某个值时,变量
4、y 的取值可能有几个4.各观测点分布在直线周围 x xy y相关关系(几个例子)相关关系的例子相关关系的例子父亲身高父亲身高(y y)与子女身高与子女身高(x x)之间的关系之间的关系收入水平收入水平(y y)与受教育程度与受教育程度(x x)之间的关系之间的关系粮粮食食亩亩产产量量(y y)与与施施肥肥量量(x x1 1)、降降雨雨量量(x x2 2)、温度温度(x x3 3)之间的关系之间的关系商商品品的的消消费费量量(y y)与与居居民民收收入入(x x)之之间间的的关关系系商商品品销销售售额额(y y)与与广广告告费费支支出出(x x)之之间间的的关关系系相关关系(类型)散点图(sca
5、tter diagram)不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关 相关关系的描述与测度散点图(例题分析)【例例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平
6、稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据 散点图(例题分析)散点图(例题分析)例例1 读取某公司雇员数据(读取某公司雇员数据(R R数据文件)数据文件),画出起始收画出起始收入和现在收入的散点图。入和现在收入的散点图。load(E:/R/Employee data.Rdata);ls();1 Edataattributes(Edata);$names 1 ID GENDER BDATE EDUC JOBCAT SAL
7、ARY 7 SALBEGIN JOBTIME PREVEXP MINORITYplot(Edata$SALARY,Edata$SALBEGIN);相关系数(correlation coefficient)1.对变量之间关系密切程度的度量2.对两个变量之间线性相关程度的度量称为简单相关系数3.若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 4.若是根据样本数据计算的,则称为样本相关系数,记为 r相关关系的描述与测度相关系数(计算公式)样本相关系数的计算公式或化简为相关系数(取值及其意义)1.r 的取值范围是-1,12.|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关
8、3.r=0,不存在线性线性相关关系相关4.-1r0,为负相关5.0 t t,拒绝拒绝H H0 0 若若 t t =7.5344t t(25-2)=2.0687(25-2)=2.0687,拒拒绝绝H H0 0,不不良良贷贷款款与与贷贷款款余余额额之之间间存存在在着着显显著著的的正正线线性性相相关关关关系系 相关系数的显著性检验(例题分析)各相关系数检验的统计量各相关系数检验的统计量9.2 一元线性回归一一.一元线性回归模型一元线性回归模型二二.参数的最小二乘估计参数的最小二乘估计三三.回归直线的拟合优度回归直线的拟合优度四四.显著性检验显著性检验什么是回归分析?(Regression)1.从一组
9、样本数据出发,确定变量之间的数学关系式2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归一词是回归一词是怎么来的怎么来的??趋向中间高度的回归趋向中间高度的回归回归这个术语是由英国著名统计学家Francis Galton在19世纪末期研究孩子及他们的父母的身高时提出来的。Galton发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们的父母那样高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高
10、要比他们的父母的平均身高高。Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数值变量的方法称为回归分析。回归分析与相关分析的区别1.相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化2.相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量3.相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制 回归模型的类型
11、一元线性回归1.涉及一个自变量的回归2.因变量y与自变量x之间为线性关系被 预 测 或 被 解 释 的 变 量 称 为 因 变 量(dependent variable),用y表示用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示 3.因变量与自变量之间的关系用一条线性方程来表示回归模型(regression model)1.回答“变量之间是什么样的关系?”2.方程中运用1 个数字的因变量(响应变量)被预测的变量1 个或多个数字的或分类的自变量(解释变量)用于预测的变量3.主要用于预测和估计一元线性回归模型1.描述因变量 y 如何依赖于自变
12、量 x 和误差项 的方程称为回归模型回归模型2.一元线性回归模型可表示为 y=0 0+1 1 x+y 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性0 和 1 称为模型的参数一元线性回归模型(基本假定)1.误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为E(y)=0+1 x2.对于所有的 x 值,的方差2 都相同3.误差项是一个服从正态分布的随机变量,且相互独立。即N(0,2)独立性意味
13、着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关回归方程(regression equation)1.描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程回归方程2.一元线性回归方程的形式如下3.E(y)=0+1 x方程的图示是一条直线,也称为直线回归方程方程的图示是一条直线,也称为直线回归方程 0 0是是回回归归直直线线在在 y y 轴轴上上的的截截距距,是是当当 x x=0=0 时时 y y 的的期期望值望值 1 1是是直直线线的的斜斜率率,称称为为回回归归系系数数,表表示示当当 x x
14、每每变变动动一个单位时,一个单位时,y y 的平均变动值的平均变动值估计的回归方程(estimated regression equation)3.一元线性回归中估计的回归方程为一元线性回归中估计的回归方程为2.用用样样本本统统计计量量 和和 代代替替回回归归方方程程中中的的未未知知参参数数 和和 ,就得到了,就得到了估计的回归方程估计的回归方程估计的回归方程估计的回归方程1.总总体体回回归归参参数数 和和 是是未未知知的的,必必需需利利用用样样本本数数据去估计据去估计其其中中:是是估估计计的的回回归归直直线线在在 y y 轴轴上上的的截截距距,是是直直线线的的斜斜率率,它它表表示示对对于于一
15、一个个给给定定的的 x x 的的值值,是是 y y 的的估估计计值,也表示值,也表示 x x 每变动一个单位时,每变动一个单位时,y y 的平均变动值的平均变动值 最小二乘估计1.使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即2.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小最小二乘估计(图示)x xy y(x xn n ,y yn n)(x x1 1,y y1 1)(x x2 2,y y2 2)(x xi i,y yi i)e ei i =y yi i-y yi i最小二乘法(和 的计算公式)根据最小二乘法的要求,可得求解 和 的公式如
16、下估计方程的求法(例题分析)【例例】求不良贷款对贷款余额的回归方程回归方程为:回归方程为:y=-0.8295+0.037895 x回回归归系系数数 =0.037895=0.037895 表表示示,贷贷款款余余额额每每增增加加1 1亿元,不良贷款平均增加亿元,不良贷款平均增加0.0378950.037895亿元亿元 估计方程的求法(例题分析)不良贷款对贷款余额回归方程的图示用R进行回归分析变差1.因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响2.对一个具体的观测值来说,变差
17、的大小可以通过该实际观测值与其均值之差 来表示回归直线的拟合优度变差的分解(图示)x xy yy y 离差平方和的分解(三个平方和的关系)SST=SSR+SSE总平方和总平方和总平方和总平方和(SSTSST)回归平方和回归平方和回归平方和回归平方和(SSRSSR)残差平方和残差平方和残差平方和残差平方和(SSESSE)离差平方和的分解(三个平方和的意义)1.总平方和总平方和(SST)反映因变量的 n 个观察值与其均值的总离差2.回归平方和回归平方和(SSR)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和
18、3.残差平方和残差平方和(SSE)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和判定系数r2 (coefficient of determination)1.回归平方和占总离差平方和的比例2.反映回归直线的拟合程度3.取值范围在 0,1 之间4.R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差5.判定系数等于相关系数的平方,即R2(r)2判定系数r2 (例题分析)【例例】计算不良贷款对贷款余额回归的判定系数,并解释其意义 判判定定系系数数的的实实际际意意义义是是:在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释
19、,或者说,在不良贷款取值的变动中,有71.16%是由贷款余额所决定的。也就是说,不良贷款取值的差异有2/3以上是由贷款余额决定的。可见不良贷款与贷款余额之间有较强的线性关系 估计标准误差(standard error of estimate)1.实际观察值与回归估计值离差平方和的均方根2.反映实际观察值在回归直线周围的分散状况3.对误差项的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量4.反映用估计的回归方程预测y时预测误差的大小 5.计算公式为注:例题的计算结果为注:例题的计算结果为1.97991.97991.97991.9799线性关系的检验1.检验自变量与因变量之
20、间的线性关系是否显著2.将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著回归均方:回归平方和SSR除以相应的自由度(自变量的个数p)残差均方:残差平方和SSE除以相应的自由度(n-p-1)显著性检验显著性检验线性关系的检验(检验的步骤)1.提出假设H0:1=0 线性关系不显著2.计算检验统计量F3.确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F 4.作出决策:若FF,拒绝H0;若FF,拒绝H0,线性关系显著线性关系的检验(方差分析表)R输出的方差分析表输出的方差分析表回归系数的检验3.在一元线性回归中,等价于线性关系的显著性检验1.检验
21、 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著2.理论基础是回归系数 的抽样分布回归系数的检验(样本统计量 的分布)1.1.1.是是是根根根据据据最最最小小小二二二乘乘乘法法法求求求出出出的的的样样样本本本统统统计计计量量量,它它它有有有自自自己己己的分布的分布的分布2.2.2.的的的分布具有如下性质分布具有如下性质分布具有如下性质 分布形式:正态分布分布形式:正态分布分布形式:正态分布 数学期望:数学期望:数学期望:标准差:标准差:标准差:由由由于于于 未未未知知知,需需需用用用其其其估估估计计计量量量s s sy yy来来来代代代替替替得得得到到到
22、 的的的估估估计计计的的的标标标准差准差准差回归系数的检验(检验步骤)1.提出假设H0:1=0(没有线性关系)H1:1 0(有线性关系)2.计算检验的统计量3.确定显著性水平确定显著性水平,并进行决策,并进行决策 t t t t,拒绝拒绝H H0 0;t t =7.533515t t=2.201=2.201,拒拒绝绝H H0 0,表表明明不不良良贷贷款款与贷款余额之间有线性关系与贷款余额之间有线性关系回归系数的检验(例题分析)P 值的应用值的应用P P=0.000000=0.000000 F F ,拒绝拒绝H H0 0R R输出结果输出结果输出结果输出结果的分析的分析的分析的分析回归系数的检验
23、1.线性关系检验通过后,对各个回归系数有选择地进行一次或多次检验2.究竟要对哪几个回归系数进行检验,通常需要在建立模型之前作出决定3.对回归系数检验的个数进行限制,以避免犯过多的第一类错误(弃真错误)4.对每一个自变量都要单独进行检验5.应用 t 检验统计量回归系数的检验(步骤)1.提出假设H0:i=0 (自变量 xi 与 因变量 y 没有线性关系)H1:i 0 (自变量 xi 与 因变量 y有线性关系)2.计算检验的统计量 t3.确定显著性水平,并进行决策 t t t t,拒绝拒绝H H0 0;t t t(25-2)=2.0687,所以均拒绝原假设,说明这4个自变量两两之间都有显著的相关关系
24、2.由表Excel输出的结果可知,回归模型的线性关系显著(Significance-F1.03539E-06=0.05)。这也暗示了模型中存在多重共线性3.固定资产投资额的回归系数为负号(-0.029193),与预期的不一致多重共线性(问题的处理)1.将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关2.如果要在模型中保留所有的自变量,则应避免根据 t 统计量对单个参数进行检验对因变量值的推断(估计或预测)的限定在自变量样本值的范围内R R输出结果的分析输出结果的分析输出结果的分析输出结果的分析10.5 利用回归方程进行估计和预测软件应用置信区间估计(例题分析)STATISTIC
25、A输出的不良贷款的置信区间输出的不良贷款的置信区间预测区间估计(例题分析)STATISTICA输出的不良贷款的预测区间输出的不良贷款的预测区间10.6 虚拟自变量的回归一一.含有一个虚拟自变量的回归含有一个虚拟自变量的回归二二.用虚拟自变量回归解决方差分析问题用虚拟自变量回归解决方差分析问题虚拟自变量(dummy variable)1.用数字代码表示的定性自变量2.虚拟自变量可有不同的水平只有两个水平的虚拟自变量比如,性别(男,女)有两个以上水平的虚拟自变量贷款企业的类型(家电,医药,其他)3.虚拟变量的取值为0,1虚拟自变量的回归1.回归模型中使用虚拟自变量时,称为虚拟自变量的回归2.当虚拟
26、自变量只有两个水平时,可在回归中引入一个虚拟变量比如,性别(男,女)3.一般而言,如果定性自变量有k个水平,需要在回归中模型中引进k-1个虚拟变量虚拟自变量的回归(例题分析)【例例例例】为为研研究究考考试试成成绩绩与与性性别别之之间间的的关关系系,从从某某大大学学商商学学院院随随机机抽抽取取男男女女学学生生各各8 8名名,得得到到他他们们的的市市场场营营销销学学课课程程的的考考试试成成绩绩如如下表下表 虚拟自变量的回归(例题分析)散点图散点图散点图散点图y y与与与与x x的回归的回归的回归的回归男 女虚拟自变量的回归(例题分析)引进虚拟变量时,回归方程可写:E(y)=0+1x男(x=0):E
27、(y)=0男学生考试成绩的期望值女(x=0):E(y)=0+11女学生考试成绩的期望值注意:当指定虚拟变量01时0总是代表与虚拟变量值0所对应的那个分类变量水平的平均值1总是代表与虚拟变量值1所对应的那个分类变量水平的平均响应与虚拟变量值0所对应的那个分类变量水平的平均值的差值,即 平均值的差值=(0+1)-0=1虚拟自变量的回归(例题分析)【例例】为研究工资水平与工作年限和性别之间的关系,在某行业中随机 抽 取 10名职工,所得数据如下表y y与与与与x x1 1的回归及分析的回归及分析的回归及分析的回归及分析y y与与与与x x1 1、x x2 2的回归及分析的回归及分析的回归及分析的回归
28、及分析虚拟自变量的回归(例题分析)引进虚拟变量时,回归方程可写:E(y)=0+1x1+2x2女(x2=0):E(y|女性)=0+1x1男(x2=1):E(y|男性)=(0+2)+1x1 0的含义表示:女性职工的期望月工资收入(0+2)的含义表示:男性职工的期望月工资收入 1含义表示:工作年限每增加1年,男性或女性工资的平均增加值 2含义表示:男性职工的期望月工资收入与女性职工的期望月工资收入之间的差值(0+2)-0=2用虚拟自变量回归解决方差分析问题方差分析的回归方法(例题分析)引进虚拟变量建立回归方程:E(Y)=0+1x1+2x2+3x3用用R进行回归进行回归 0家电制造业投诉次数的平均值(
29、0+1)零售业投诉次数的平均值(0+2)旅游业投诉次数的平均值(0+3)航空公司投诉次数的平均值 本章小结1.多元回归模型、回归方程、估计方程多元回归模型、回归方程、估计方程2.回归方程的拟合优度回归方程的拟合优度3.显著性检验显著性检验4.多重共线性多重共线性5.利用回归方程进行估计和预测利用回归方程进行估计和预测6.虚拟自变量虚拟自变量的回归的回归7.方方差分析的回归方法差分析的回归方法第11章 实例分析11.1 统计模型的表示统计模型的表示11.2 统计分析实例统计分析实例11.1 统计模型的表示 很多统计模型可以用一个线型模型来表示:在S中模型是一种对象,其表达形式叫做一个公式,我们先
30、举几个例子来看一看。假定y,x,x0,x1,x2,是数值型变量,X是矩阵,A,B,C,是因子。y xy 1+x两个式子都表示y对x的简单一元线型回归。第一个式子带有隐含的截距项,而第二个式子把截距项显式地写了出来。y -1+xy x-1都表示y对x的通过原点的回归,即不带截距项的回归。log(y)x1+x2表示log(y)对x1和x2的二元回归,带有隐含的截距项。y poly(x,2)y 1+x+I(x2)表示y对x的一元二次多项式回归。第一种形式使用正交多项式,第二种形式直接使用x的各幂次。y X+poly(x,2)因变量为y的多元回归,模型矩阵包括矩阵X,以及x的二次多项式的各项。y A一
31、种方式分组的方差分析,指标为y,分组因素为A。y A+x一种方式分组的协方差分析,指标为y,分组因素为A,带有协变量x。y A*By A+B+A:By B%in%A y A/B非可加两因素方差分析模型,指标为y,A,B是两个因素。前两个公式表示相同的交叉分类设计,后两个公式表示相同的嵌套分类设计。y (A+B+C)2y A*B*C-A:B:C表示三因素试验,只考虑两两交互作用而不考虑三个因素间的交互作用。两个公式是等价的。y A*xy A/x y A/(1+x)-1都表示对因子A的每一水平拟合y对x的线型回归,但三个公式的编码方式不同。最后一种形式对A的每一水平都分别估计截距项和斜率项。y A
32、*B+Error(C)表示有两个处理因素A和B,误差分层由因素C确定的设计在S中运算符用来定义模型公式。一般的线型模型的公式形式为因变量+-第一项+-第二项+-第三项 其中因变量可以是向量或矩阵,或者结果为向量或矩阵的表达式。是加号+或者减号,表示在模型中加入一项或去掉一项,第一项前面如果是加号可以省略。公式中的各项可以取为:一个值为向量或矩阵的表达式,或1。一个因子 一个“公式表达式”,由“公式运算符”把因子、向量、矩阵连接而成。公式中的各项可以取为:一个值为向量或矩阵的表达式,或1。一个因子 一个“公式表达式”,由“公式运算符”把因子、向量、矩阵连接而成。每一项定义了要加入模型矩阵或从模型
33、矩阵中删除的若干列。一个1表示一个截距项列,除非显式地删除总是隐含地包括在模型公式中。“公式运算符”的定义和Glim、Genstat软件中的定义类似,不过那里的“.”运算符这里改成了“:”,因为在S中句点是名字的合法字符。资料中列出了各运算符的简要说明。每一项定义了要加入模型矩阵或从模型矩阵中删除的若干列。一个1表示一个截距项列,除非显式地删除总是隐含地包括在模型公式中。“公式运算符”的定义和Glim、Genstat软件中的定义类似,不过那里的“.”运算符这里改成了“:”,因为在S中句点是名字的合法字符。下表列出了各运算符的简要说明。注意在函数调用的括号内的表达式按普通四则运算解释。函数I()
34、可以把一个计算表达式封装起来作为模型的一项使用。注意S的模型表示只给出了因变量和自变量及自变量间的关系,这样只确定了线型模型的模型矩阵,而模型参数向量是隐含的,并没有的模型公式中体现出来。这种做法适用于线性模型,但不具有普遍性,例如非线性模型就不能这样表示。线性回归模型线性回归模型拟合普通的线性模型的函数为lm(),其简单的用法为:fitted.model=lm(formula,data=data.frame)其中data.frame为各变量所在的数据框,formula为模型公式,fitted.model是线性模型拟合结果对象(其class属性为lm)。例如:mod1=lm(y x1+x2,d
35、ata=production)可以拟合一个y对x1和x2的二元回归(带有隐含的截距项),数据来自数据框production。拟合的结果存入了对象mod1中。注意不论数据框production是否以用attach()连接入当前运行环境都可被lm()使用。lm()的基本显示十分简练:mod1Call:lm(formula=y x1+x2,data=production)Coefficients:(Intercept)x1 x2 0.0122033 2.0094758 -0.0005314 只显示了调用的公式和参数估计结果。提取信息的通用函数提取信息的通用函数lm()函数的返回值叫做模型拟合结果对象
36、,本质上是一个具有类属性值lm的列表,有model、coefficients、residuals等成员。lm()的结果显示十分简单,为了获得更多的拟合信息,可以使用对lm类对象有特殊操作的通用函数,这些函数包括:add1coefeffectskappapredictresidualsaliasdeviancefamilylabelsprintsummaryanovadrop1formulaplotproj 下表给出了lm类(拟合模型类)常用的通用函数的简单说明。通用函数返回值或效果anova(对象1,对象2)把一个子模型与原模型比较,生成方差分析表。coefficients(对象)返回回归系数
37、(矩阵)。可简写为coef(对象)。deviance(对象)返回残差平方和,如有权重则加权。formula(对象)返回模型公式。plot(对象)生成两张图,一张是因变量对拟合值的图形,一张是残差绝对值对拟合值的图形。predict(对象,newdata=数据框)predict.gam(对象,newdata=数据框)有了模型拟合结果后对新数据进行预报。指定的新数据必须与建模时用的数据具有相同的变量结构。函数结构为对数据框中每一观测的因变量预报结果(为向量或矩阵)。predict.gam()与predict()作用相同但适用性更广,可应用于lm、glm和gam的拟合结果。比如,当多项式基函数用了正
38、交多项式时,加入了新数据导致正交多项式基函数改变,用predict.gam()函数可以避免由此引起的偏差print(对象)简单显示模型拟合结果。一般不用print()而直接键入对象名来显示。residuals(对象)返回模型残差(矩阵),若有权重则适当加权。可简写为resid(对象)。summary(对象)可显示较详细的模型拟合结果。方差分析 方差方差分析是研究取离散值的因素对一个数值型指标的影响的经典工具。S进行方差分析的函数是aov(),格式为aov(公式,data=数据框),用法与lm()类似,提取信息的各通用函数仍有效。我们以前面用过的不同牌子木板磨损比较的数据为例。假设veneer数
39、据框保存了该数据:veneer 首先我们把每个牌子的木板的磨损情况画盒形图并且放在同一页面中,作图如下:plot(Wear Brand,data=veneer)这种图可以直观地比较一个变量在多个组的分布,或者比较几个类似的变量。从图中可以看出,AJAX牌子较好,TUFFY较差,其它三个牌子差别不明显。为了检验牌子这个因素对指标磨损量有无显著影响,只要用aov()函数:aov.veneer=aov(Wear Brand,data=veneer)summary(aov.veneer)Df Sum Sq Mean Sq F value Pr(F)Brand 4 0.61700 0.15425 7.4
40、04 0.001683 *Residuals 15 0.31250 0.02083 -Signif.codes:0*0.001*0.01*0.05.0.1 1 可见因素是显著的。11.2 统计分析实例 下面我们以那个学生班的情况为例进行一些分析。我们希望了解体重、身高、年龄、性别等变量的基本情况及互相之间的关系。一、数据输入一、数据输入我们先把数据读入一个S数据框对象中:load(E:/R/cl.Rdata);ls();cl二、探索性数据分析(二、探索性数据分析(EDA)首先我们先研究各变量的分布情况,看分布是否接近正态,有无明显的异常值,有没有明显的序列相关,等等。研究连续型变量的分布,可以
41、使用直方图、盒形图、分布密度估计图和正态概率图。研究离散型变量分布只要画其分布频数条形图即可,分布频数用table函数计算。研究序列相关性可以作时间序列图和自相关函数图。因为这些图经常重复使用,我们把它们定义为函数,在同一页面画出:function(x)oldpar=par(mfrow=c(2,2),mar=c(2,2,0.2,0.2),mgp=c(1.2,0.2,0);hist(x,main=,xlab=,ylab=);boxplot(x);iqd=summary(x)5-summary(x)2;plot(density(x,width=2*iqd),xlab=x,ylab=,type=l,
42、main=);qqnorm(x,main=,xlab=,ylab=);qqline(x);par(oldpar);invisible()function(x)oldpar attach(cl)clfun1(Age)clfun1(Height)clfun1(Weight)tab.sex barplot(tab.sex)clfun1(Age)clfun1(Height)clfun1(Weight)tab.sex barplot(tab.sex)因为数据是不同个体的观测所以不可能有序列相关,未画时间序列图。这里给出了身高的分布图及性别的频数直方图。可以看出,身高和体重都相当接近正态且无明显的异常点,
43、体重因为取离散值所以直方图不接近正态,但从核密度估计曲线看仍可作为正态处理。要计算一些简单统计量,可以用summary()函数。为了研究数值型变量Weight、Height、Age间的关系,我们画它们的散点图矩阵:pairs(cbind(Height,Weight,Age)从散点图矩阵(图14)可以看出三个变量之间都可能有线性相关关系。为了研究因子Sex对其它变量的影响,可以画Sex不同水平上各变量的盒形图,如:par(mfrow=c(1,3)boxplot(Weight Sex,ylab=Weight)boxplot(Height Sex,ylab=Height)boxplot(Age Se
44、x,ylab=Age)从图可以看出,男女的体重、身高有明显的差别,而年龄则差别不明显。我们也可以分不同性别对某一变量分别作图或计算,这里只要使用向WeightSex=F,WeightSex=M 这样的取子集的办法就可以把观测分组。更进一步还可以用函数tapply直接按一个因子对观测分组然后作用某个函数:tapply(Weight,Sex,hist)为了研究因子Sex的不同水平对其它变量间的相关关系的影响,可以作协同图:coplot(Weight Height|Sex)结果图没有反映明显的差别。$F$breaks1 50 60 70 80 90 100 110 120$counts1 1 0 1
45、 3 1 1 2$intensities1 0.01111111 0.00000000 0.01111111 0.03333333 0.01111111 0.01111111 0.02222222$density1 0.01111111 0.00000000 0.01111111 0.03333333 0.01111111 0.01111111 0.02222222$mids1 55 65 75 85 95 105 115$xname1 X1$equidist1 TRUEattr(,class)1 histogram$M$breaks1 80 90 100 110 120 130 140 15
46、0$counts1 3 1 1 2 1 1 1$intensities1 0.02999999 0.01000000 0.01000000 0.02000000 0.01000000 0.01000000 0.01000000$density1 0.02999999 0.01000000 0.01000000 0.02000000 0.01000000 0.01000000 0.01000000$mids1 85 95 105 115 125 135 145$xname1 X2$equidist1 TRUEattr(,class)1 histogram三、组间比较三、组间比较我们来分析男女的身
47、高有无显著差异,这是两组比较的问题。上面EDA部分的并排盒形图已经提示男女身高有明显差异,这里我们用统计假设检验给出统计结论。男女两组可以认为是独立的,而且每组内的观测也可以认为是相互独立的。根据EDA 结果可以认为两组都来自正态总体。这样,我们可以使用两样本t检验。因为方差是否相等未知,我们干脆用不要求方差相等的近似两样本t检验:t.test(HeightSex=F,HeightSex=M)t.test(HeightSex=F,HeightSex=M)Welch Two Sample t-test data:HeightSex=F and HeightSex=M t=-1.4513,df=1
48、6.727,p-value=0.1652alternative hypothesis:true difference in means is not equal to 0 95 percent confidence interval:-8.155098 1.512875 sample estimates:mean of x mean of y 60.58889 63.91000 结果p值为0.1652,按我们一般采用的0.05水平是不显著的。所以从这组样本看男女的身高没有发现显著差异。t.test也可以进行方差相等的两组比较,以及成对比较,单总体的均值检验,详见随机文档。类似可以进行男女体重的
49、比较,p值为0.06799,不显著。四、回归分析 下面我们研究对体重的预报。从散点图矩阵看,体重与身高之间有明显的线性相关,所以我们先拟合一个体重对身高的一元线性回归模型:lm.fit1=lm(Weight Height,data=cl)lm.fit1 Call:lm(formula=Weight Height,data=cl)Coefficients:(Intercept)Height -143.027 3.899 plot(Weight,Height)summary(lm.fit1)Call:lm(formula=Weight Height,data=cl)Residuals:Min 1Q
50、 Median 3Q Max-17.6807 -6.0642 0.5115 9.2846 18.3698 Coefficients:Estimate Std.Error t value Pr(|t|)(Intercept)-143.0269 32.2746 -4.432 0.000366*Height 3.8990 0.5161 7.555 7.89e-07*-Signif.codes:0*0.001*0.01*0.05.0.1 1 Residual standard error:11.23 on 17 degrees of freedomMultiple R-Squared:0.7705,A