《多元统计分析及R语言建模 教学设计.pptx》由会员分享,可在线阅读,更多相关《多元统计分析及R语言建模 教学设计.pptx(335页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多元统计分析及建模 - 1- 2课程安排课程安排 1 1、在基本统计方法学习的基础上,、在基本统计方法学习的基础上,深入学习深入学习多元统计分析模型及模型实现、分析方法。多元统计分析模型及模型实现、分析方法。 2 2、该门课程每周、该门课程每周2.52.5课时课时,理论与上机结合。,理论与上机结合。 期末考核: 总成绩=平时(20%)+上机(20%)+ +期末期末考试考试( (60%)0%) 考试方式考试方式 平时平时(20)(20):课堂:课堂(40%)(40%)+ +出勤出勤(60%)(60%) 上机(20):两次实验报告,一次50% 期末期末考试考试:闭卷:闭卷3学习资料学习资料 RR教
2、学教材:王斌会编著 2016.1(第4版)暨南大学出版社扩充资料:王斌会编著数据统计分析及R语言编程 2017.6(第2版)北京大学出版社,暨南大学出版社多元统计分析及R语言建模1 多元统计分析概述 多元分析基本内容,以及本课程的主要安排。相关的补充知识和将要涉及的计算软件程序。 要求学生了解多元分析的基本内容及应用领域,并掌握一些基本概念。对统计分析软件有一个基本认识。多元统计分析及R语言建模 多元统计分析概述1.1 多元统计分析的历史1.2 多元统计分析的用途进行数值分类,构造分类模式3 3变量之间相依性分析1 1构造预测模型,进行预报控制2 2简化系统结构,探讨系统内核4 4 如何选择适
3、当的方法来解决如何选择适当的方法来解决实际问题,需要对问题进行综实际问题,需要对问题进行综合考虑。合考虑。多元数据的数学表示1多元数据的直观分析2多元线性相关分析3多元线性回归分析4广义和一般线性模型5判别分析6聚类分析7主成分分析8因子分析9对应分析10典型相关分析11多维标度法12综合评价法131.3 多元统计分析的内容1.4 统计分析软件及应用S-PLUSSASSPSS操作简单操作简单无须编程无须编程方便的数据接口方便的数据接口灵活的功能模块组合灵活的功能模块组合操作界面操作界面简单简单全面的统计模型和分析手段全面的统计模型和分析手段很强的图形处理能力很强的图形处理能力兼容性极好兼容性极
4、好1 1强大的统计分析软件 1.4 统计分析软件及应用MATLAB数值分析数值分析数值和符号计算数值和符号计算工程与科学绘图工程与科学绘图控制系统的设计与仿真控制系统的设计与仿真数字图像处理技术数字图像处理技术数字信号处理技术数字信号处理技术通讯系统设计与仿通讯系统设计与仿财务与金融工程财务与金融工程2 2完整的数值计算软件 020203031.4 统计分析软件及应用R3 3免费的数据分析软件 0101功能强大功能强大免费,开源免费,开源前景广阔前景广阔1.5 R语言系统的设置优点缺点自由软件,统计功能强大,自由软件,统计功能强大,可以看作可以看作Splus的免费版的免费版本,是统计研究的首选
5、本,是统计研究的首选初学较为麻烦,需一初学较为麻烦,需一定编程经验定编程经验1.5 R语言系统的设置 语句编程窗口命令结果窗口图形显示窗口R里面有什么里面有什么? Packages (每个都有大量数据和可以读写修(每个都有大量数据和可以读写修改的函数改的函数/程序)程序)base The R base packageboot Bootstrap R (S-Plus) Functions (Canty)class Functions for classificationcluster Functions for clustering (by Rousseeuw et al.)ctest Clas
6、sical Testseda Exploratory Data Analysisforeign Read data stored by Minitab, SAS, SPSS, .grid The Grid Graphics PackageKernSmooth Functions for kernel smoothing for Wand & Jones (1995)lattice Lattice Graphicslqs Resistant Regression and Covariance EstimationMASS Main Library of Venables and Ripleys
7、MASSmethods Formal Methods and Classesmgcv Multiple smoothing parameter estimation and GAMs by GCVPackages (继续)继续) modreg Modern Regression: Smoothing and Local Methodsmva Classical Multivariate Analysisnlme Linear and nonlinear mixed effects modelsnls Nonlinear regressionnnet Feed-forward neural ne
8、tworks and multinomial log-linear modelsrpart Recursive partitioningspatial functions for kriging and point pattern analysissplines Regression Spline Functions and Classes stepfun Step Functions, including Empirical Distributionssurvival Survival analysis, including penalised likelihood.tcltk Interf
9、ace to Tcl/Tktools Tools for Package Development and Administrationts Time series functions所有这些所有这些PackagesPackages都是在都是在base packagebase package上添加的上添加的 BaseBase包含所有固有的应用和数据包含所有固有的应用和数据 而其他的而其他的packagespackages包含各统计学家自己发展包含各统计学家自己发展的方法和数据。的方法和数据。 希望你是下一个加盟这些希望你是下一个加盟这些packagespackages的作者之的作者之一。一。多元
10、统计分析及建模 多元统计分析及R语言建模2 多元数据的数学表达及R使用 多元数据的基本格式,如何收集和整理多元统计分析资料、数据的数学表达、数据矩阵及R表示、数据的R语言表示、R调用多元的数据和多元的数据的简单R语言分析。 要求学生熟练如何收集和整理多元统计分析资料、数据的数学表达、掌握多元数据的数字特征的解析表达式、数字特征的基本性质。熟悉有关统计软件。利用统计软件来练习矩阵的有关计算。练习在已给数据下,求样本均值、样本离差阵、样本协差阵等。多元统计分析及R语言建模2 多元数据的数学表达及R使用2.1 如何收集和整理多元分析资料2.1 如何收集和整理多元分析资料【例【例2.12.1】为了了解
11、股民的投资状况,研】为了了解股民的投资状况,研究股民的股票投资特征,我们在究股民的股票投资特征,我们在20022002年组年组织统计系本科生进行小范围的织统计系本科生进行小范围的“股民投资股民投资状况抽样调查状况抽样调查”。本次调查的抽样框主要。本次调查的抽样框主要涉及广东省的涉及广东省的6 6个城市(广州、深圳、珠个城市(广州、深圳、珠海、中山、佛山和东莞,其中,广州、深海、中山、佛山和东莞,其中,广州、深圳各圳各100100份,其他城市各份,其他城市各8080份),共发放份),共发放问卷问卷520520份,回收有效问卷份,回收有效问卷514514份。问卷中份。问卷中设计了设计了1818个问
12、题。为了简化分析,本例只个问题。为了简化分析,本例只考虑:年龄、性别、风险意识、是否专兼考虑:年龄、性别、风险意识、是否专兼职、职业状况、教育程度和投资结果共职、职业状况、教育程度和投资结果共7 7个变量进行分析。个变量进行分析。#本例性别、风险、专兼职、职业、教育和结果为定性变量,年龄是定量变量,有时为了分析问题方便,也可将其定量化,例如n 年龄(年龄(ageage):):1919岁以下(岁以下(1 1););2020至至2929岁(岁(2 2););30 30 至至3939岁(岁(3 3););4040至至4949岁(岁(4 4););5050至至5959岁岁(5 5););6060岁岁
13、及以上(及以上(6 6);缺失();缺失(* *)。)。n 性别(性别(sexsex): : 男(男(1 1),女(),女(2 2)。)。n 风险(风险(riskrisk):有():有(1 1);无();无(2 2)。)。n 专兼职(专兼职(postpost):专职():专职(1 1);业余();业余(2 2)。)。n 职业(职业(careercareer):干部():干部(1 1);管理();管理(2 2););3 3科教科教(3 3);金融();金融(4 4);工人();工人(5 5);农民();农民(6 6);个体);个体(7 7);无业();无业(8 8)。)。n 教育(教育(edue
14、du):文盲():文盲(1 1);小学();小学(2 2);中学();中学(3 3););高中(高中(4 4);中专();中专(5 5););大专(大专(6 6);大学();大学(7 7);研究生();研究生(8 8)。)。n 投资结果(投资结果(resultresult):赚钱():赚钱(1 1);不赔不赚();不赔不赚(2 2););赔钱(赔钱(3 3)。)。2.2 数据的表达方差样本均值和方差一元数据一元数据多元数据多元数据期望期望协方差数据的表达数据的表达2.3 数据矩阵#将向量按列和并rbind(x1,x2) #利用x1数据创建矩阵matrix(x1,nrow=3,ncol=4) #
15、创建按照行排列的矩阵matrix(x1,nrow=3,ncol=4,byrow=T)2.3 数据矩阵#创建两个相同的矩阵A=B=matrix(1:12,nrow=3,ncol=4) #矩阵转置t(A) #矩阵加法A+B #矩阵加法A+B 2.3 数据矩阵#矩阵相乘A=matrix(1:12,nrow=3,ncol=4) B=matrix(1:12,nrow=4,ncol=3)A%in%B#获取对角线元素A=matrix(1:16,nrow=4,ncol=4)diag(A) #利用对角线元素创建对角矩阵diag(diag(A)#创建3阶单位矩阵diag(3)2.3 数据矩阵#求逆矩阵A=matr
16、ix(rnorm(16),4,4)solve(A)#求矩阵特征根与特征向量A=diag(4)+1A.e=eigen(A,symmetric=T)#矩阵的Choleskey分解A.c=chol(A)2.3 数据矩阵#矩阵奇异值分解A=matrix(1:18,3,6)A.s=svd(A)#矩阵的维数A=matrix(1:12,3,4)dim(A)#矩阵的行数nrow(A)#矩阵的行数ncol(A)2.3 数据矩阵#矩阵按行求和rowSums(A)#矩阵按行求均值colSums(A)#矩阵按列求和colSums(A)#矩阵按列求均值colSums(A)apply()apply()函数apply(X,
17、 MARGIN, FUN, .)#矩阵按行求和apply(A,1,sum)#矩阵按行求均值apply(A,1,mean)#矩阵按行求和rowSums(A)#矩阵按行求均值colSums(A)2.3 数据矩阵#矩阵按列求和apply(A,2,sum)#矩阵按列求均值aplly(A,2,mean)#矩阵按列求方差A=matrix(rnorm(100),20,5)aplly(A,2,var)#矩阵按列求函数结果B=matrix(1:12,3,4)apply(B,2,function(x,a) x*a, a=2)注意:apply(B,2,function(x,a)x*a,a=2)与B*2效果相同,此处
18、旨在说明如何应用apply函数。2.4 数据的R语言表示数据框数据框(数据框(data framedata frame)是一种矩阵形式的数据,但数据框中各列可以是不同类型的数据。)是一种矩阵形式的数据,但数据框中各列可以是不同类型的数据。分量必须是向量(数值,字 符 , 逻辑)、因子、数值矩阵、列表或者其他数据框。矩 阵 、 列 表和 数 据 框 为新 的 数 据 框提 供 了 尽 可能多的变量,因 为 它 们 各自 拥 有 列 、元 素 或 者 变量。数值向量、逻辑值、因子保持原有格式,而字符向量会被强制转换成因子并且它的水平就是向量中出现的独立值。在数据框中以变量形式出现的向量长度必须一致
19、,矩阵结构必须有一样的行数。数据框录入限制条件数据框2.4 数据的R语言表示数据框#由x1和x2构建数据框X=data.frame(x1,x2)#赋予数据框新的列标签X=data.frame(身高=x1,体重=x2)2.5 多元数据的R语言调用 从剪切板读取选择需要进行计算的数据块(比如上例中名为UG的数据),拷贝之。在R中使用dat - read.table(clipboard,header=T)010102022.5 多元数据的R语言调用 从文本文件读取#读取名为textdata的txt格式文档X=read.table(textdata.txt)X=read.table(textdata.
20、txt,header=T)第一行作为标题时 2.5 多元数据的R语言调用 读取csvcsv格式读取excelexcel格式X=read.csv(textdata.csv) 1.下载读取下载读取excel文件的包文件的包“readxl”2. 调用包:调用包:library(readxl)3. 读取文件:读取文件:X=read_excel(“data.xls”)2.6 多元数据的简单R语言分析 #身高的直方图hist(x1)#身高与体重散点图plot(x1,x2)定量变量分析2.6 多元数据的简单R语言分析 #将剪切板数据读入数据框d2.1中d2.1=read.table(clipboard,he
21、ader=T)#显示数据前6行head(d2.1)定性变量分析#绑定数据attach(d2.1)#一维列联表table(年龄)2.6 多元数据的简单R语言分析 #条形图barplot(table(年龄),col=1:7)#饼图pie(table(结果)定性变量分析(单因素)2.6 多元数据的简单R语言分析 #以性别分组的年龄条图barplot(table(年龄,性别), beside =T, col = 1:7)#以年龄分组的性别条图barplot(table(性别,年龄), beside=T,col =1:2)定性变量分析(双因素)2.6 多元数据的简单R语言分析 #以年龄、性别排列的结果频
22、数三维列联表ftable(年龄,性别,结果)#以性别、年龄排列的结果频数三维列联表ftable(性别,年龄,结果)定性变量分析(三因素)2.6 多元数据的简单R语言分析 #ft=ftable(性别,结果,年龄)#求ft的行和rowSums(ft)定性变量分析(三因素)#求ft的列和colSums(ft)#整理得注意detach(d2.1)当数据框不使用时,解除绑定!当数据框不使用时,解除绑定!第3章 多元数据直观表示及R使用多元统计分析及建模 - 43- 多元统计分析及R语言建模3 多元数据直观表示及R使用 包括条图、箱尾图、星相图、脸谱图、调和曲线图等图形及R语言使用。 要求学生了解多元数据
23、的直观表示方法及多变量图形的一些特点,并掌握一些复杂的多元数据的图示技术。多元统计分析及R语言建模第3章 多元数据直观表示及R使用3.1 数据直观分析简述 图形有助于对所研究数据的直观了解,如果能把一些多元数据直接绘图显示,便可从图形一目了然看出多元变量之间的关系。 【例 3-1】为了研究全国31个省、市、自治区2007年城镇居民生活消费的分布规律,根据调查资料做区域消费类型划分。3.1 数据直观分析简述食品:人均食品支出(元/人) 衣着:人均衣着商品支出(元/人) 设备:人均家庭设备用品及服务支出(元/人) 医疗:人均医疗保健支出(元/人) 交通:人均交通和通讯支出(元/人) 教育:人均娱乐
24、教育文化服务支出(元/人) 居住:人均居住支出(元/人) 杂项:人均杂项商品和服务支出(元/人)l 数据来源: 2008中国统计年鉴 数据存储: 电子表格mvstats4.xls 之【d3.1】 3.1 数据直观分析简述 l X=read.table(clipboard,header=T);X 对上述数据直接做条图意义不大,通常需要对其统计量(如均值、中位数等)做直观分析。3.2 均值条图及R使用#按行做均值条形图barplot(apply(X,1,mean) #修改横坐标位置barplot(apply(X,1,mean),las=3) 3.2 均值条图及R使用#按列做均值图条形barplot
25、(apply(X,2,mean) #按列做彩色均值图条形图barplot(apply(X,2,mean),col=1:8)3.2 均值条图及R使用#按列做中位数条形图 barplot(apply(X,2,median),col=1:8)#按列做均值饼图pie(apply(X,2,mean)3.3 箱尾图及R使用l 箱尾图l 用途: Tukey提出的箱尾图由箱子和其上引出的两个尾组成,这种图用来表示在一定时间内一个班成绩的变化、物体位置的变化、原材料的变化、产品标准的变化等。l 特征: 箱尾图可以比较清晰地表示数据的分布特征,它由4部分组成。l R语言函数:3.3 箱尾图及R使用boxplot(
26、X) #按列做垂直箱线图boxplot(X,horizontal=T)#水平箱线图3.4 星相图及R使用l 星相图l 用途: 它将每个变量的各个观察单位的数值表示为一个图形,个观察单位就有个图,每个图的每个角表示每个变量。l 特征: 星相图是雷达图的多元表示形式。 l R语言函数:3.4 星相图及R使用#简单星相图stars(X) 3.4 星相图及R使用 #带图例的星相图 stars(X,key.loc=c(17,7) 3.4 星相图及R使用#带图例度彩色星相图stars(X,key.loc=c(17,7), draw.segments=T) #加载aplpack包library(aplpac
27、k) #按每行7个做脸谱图faces(X,ncol.plot=7) 脸谱图:运用样本各变量值构造脸的各部位,通过分析脸部位大小或形状来 分析各样本数据特征3.4 星脸谱图及R使用# #加载加载mvstatsmvstats包包library(library(mvstatsmvstats) ) plot.andrewsplot.andrews(X) (X) 调和曲线图:使用高维空间中的一个样本对应于二维平面上的一条曲线的方法 分析数据特征3.6 调和曲线图及R使用直观表示图均值条图均值、中位数箱尾图调和曲线图分位数曲线特征多元数据直观表示-小结星相图星相凸角脸谱图脸谱特征第4章 多元相关与回归分析
28、及R使用多元统计分析及建模 - 61- 多元统计分析及R语言建模4 多元相关与回归分析及R使用 变量间的关系分析与回归分析。多元相关回归分析的目的和基本思想,回归变量选择及逐步回归分析方法。 在学生已具有的(一元)相关与回归分析的基础知识上,掌握和应用多元线性相关与回归分析。多元统计分析及R语言建模第4章 多元相关与回归分析及R使用本节内容4.1 变量间的关系分析1 简单相关分析的R计算2 一元线性回归分析的R计算4.1 变量间的关系分析4.1 变量间的关系分析 【例 4-1】(续例2-2)身高与体重的相关关系分析。下面以例2-2的身高与体重数据分析。4.1 变量间的关系分析l plot(x1
29、,x2) 通过散点图看身高与体重的关系x1=c(171,175,159,155,152,158,154,164,168,166,159,164)x2=c(57,64,41,38,35,44,41,51,57,49,47,46)4.1 变量间的关系分析l lxyF) x 1 712077 712077 27427 |t|) (Intercept) -1.19660 1.16126 -1.03 0.311 x 1.11623 0.00674 165.61 |t|) (Intercept) 23.5321088 4.5990714 5.117 2.47e-05 *x1 -0.0033866 0.00
30、80749 -0.419 0.678 x2 1.1641150 0.0404889 28.751 2e-16 *x3 0.0002919 0.0085527 0.034 0.973 x4 -0.0437416 0.0092638 -4.722 7.00e-05 *Signif. codes: 0*0.001 *0.01 *0.05 .0.1 1Residual standard error: 2.79 on 26 degrees of freedomMultiple R-squared: 0.9997,Adjusted R-squared: 0.9997 F-statistic: 2.289e
31、+04 on 4 and 26 DF, p-value: 2.2e-16summary(fm)#多元线性回归系数t检验lm(formula=yx1+x2+x3+x4, data = yX)Residuals: Min 1Q Median 3Q Max -5.0229 -2.1354 0.3297 1.2639 6.9690 多元统计分析及R语言建模4.3 多元相关分析 在相关分析中,研究较多的是两个变量之间的关系,称为简单相关;当涉及到的变量为三个或者三个以上时,称为偏相关或复相关。实际上,偏相关和复相关是对简单相关的一种推广。多元统计分析及R语言建模4.3 多元相关分析多元统计分析及R语言建
32、模4.3 多元相关分析设样本矩阵为:多元统计分析及R语言建模4.3 多元相关分析多元统计分析及R语言建模4.3 多元相关分析此时任意两个变量间相关系数构成的矩阵为:多元统计分析及R语言建模4.3 多元相关分析多元统计分析及R语言建模4.3 多元相关分析其中rij为任意两变量之间的简单相关系数:多元统计分析及R语言建模4.3 多元相关分析举例与说明(续例4.4)财政收入与其他变量间的相关分析。计算财政收入和国民生产总值及税收、进出口贸易总额、经济活动人口两两之间相关系数,表4.9给出了相关系数的假设检验统计量。首先我们计算变量两两间的相关系数多元统计分析及R语言建模4.3 多元相关分析#多元数据
33、相关系数矩阵cor(yX) R语言代码数据输出多元统计分析及R语言建模4.3 多元相关分析函数说明多元统计分析及R语言建模4.3 多元相关分析library(mvstats)#多元数据相关系数检验corr.test(yX) R语言代码数据输出从结果可以看出,财政收入和国民生产总值及税收、进出口贸易总额、经济活动人口之间的关系都非常密切,财政收入与税收之间的关系最为密切。多元统计分析及R语言建模4.3 多元相关分析复相关分析 在实际分析中,一个变量的变化往往要受到多种变量的综合影响,这时就需要采用复相关分析方法。所谓复相关,就是研究多个变量同时与某个变量之间的相关关系,度量复相关程度的指标是复相
34、关系数。多元统计分析及R语言建模4.3 多元相关分析多元统计分析及R语言建模4.3 多元相关分析假定回归模型为:复相关系数多元统计分析及R语言建模4.3 多元相关分析多元统计分析及R语言建模4.3 多元相关分析复相关系数计算公式为:复相关系数多元统计分析及R语言建模4.3 多元相关分析多元统计分析及R语言建模4.3 多元相关分析复相关系数:决定系数决定系数:多元统计分析及R语言建模4.3 多元相关分析#显示多元线性回归模型决定系数(R2=summary(fm)$r.sq) R语言代码数据输出#显示多元数据复相关系数(R=sqrt(R2)1 0.99971 0.9999多元统计分析及R语言建模4
35、.4 回归变量的选择方法多元统计分析及R语言建模多元回归分析主要用途用于描述解释现象, 这时希望回归方程中所包含的自变量尽可能少一些用于预测, 这时希望预测的均方误差较小用于控制,这时希望各回归系数具有较小的方差和均方误差多元统计分析及R语言建模4.4 回归变量的选择方法多元统计分析及R语言建模变量太多,容易引起的问题变量多增加了模型的复杂计算量增大估计和预测的精度下降模型应用费用增加多元统计分析及R语言建模4.4 回归变量的选择方法多元统计分析及R语言建模全部子集法向后删除法向前引入法逐步回归法4.4 回归变量的选择方法多元统计分析及R语言建模全局最优法从理论上说,自变量选择最好的方法是所有
36、可能回归法,即建立因变量和所有自变量全部子集组合的回归模型,也称全部子集法。对于每个模型,在实用上,从数据与模型拟合优劣的直观考虑出发,基于残差(误差)平方和的变量选择准则使用的最多。多元统计分析及R语言建模4.3 多元相关分析举例与说明【例4.6】(续例4.4)在“财政收入”数据中,有4个自变量:x1,x2,x3,x4。所有可能的模型可分为5组子集:多元统计分析及R语言建模4.3 多元相关分析举例与说明例4.4数据的RSS与R2准则回归子集:多元统计分析及R语言建模4.3 多元相关分析library(leaps) #加载leaps包varsel=regsubsets(yx1+x2+x3+x4
37、,data=yX) result=summary(varsel) data.frame(resultoutmat,RSS=resultrss,R2=result$rsq) R语言代码数据输出多元统计分析及R语言建模4.4 回归变量的选择方法多元统计分析及R语言建模R2和RSS准则优缺点具有较大R2的对较少自变量的模型应该是好的选择,较大的意味着有好的拟合效果,而较少的变量个数可减轻信息的收集和控制。对于有个自变量的回归模型来说,当自变量子集在扩大时,残差平方和随之减少。因此,如果按RSS“愈小愈好”和按R2”愈大愈好”的原则来选择自变量子集,则毫无疑问应该选全部自变量多元统计分析及R语言建模4
38、.4 回归变量的选择方法多元统计分析及R语言建模平均残差平方和最小准则误差均方根MSE最小准则校正复相关系数平方(Adjusted R2)准则Cp准则AIC准则BIC准则多元统计分析及R语言建模举例与说明表4.10例4.4数据的Cp与BIC准则回归子集4.4 回归变量的选择方法多元统计分析及R语言建模4.3 多元相关分析data.frame(resultoutmat,adjR2=resultadjr2,Cp=resultcp,BIC=result$bic)R语言代码数据输出多元统计分析及R语言建模4.4 回归变量的选择方法多元统计分析及R语言建模全局择优法的缺陷如果自变量个数为4,则所有的回归
39、有15个,当自变量个数为10时,所有可能的回归为1023个,当自变量数个数为50时,所有可能的回归为1015个,当p很大时,数字2p大得惊人,有时计算是不可能的,于是就提出了所谓逐步回归的方法.4.4 回归变量的选择方法多元统计分析及R语言建模逐步回归分析在作实际多元线性回归时常有这样情况, 变量x1,x2,.xp相互之间常常是线性相关的,即在x1,x2,.xp中任何两个变量是完全线性相关的, 即相关系数为1,则矩阵XTX的秩小于p,XTX就无解。当变量x1,x2,.xp中任有两个变量存在较大的相关性时, 矩阵XTX处于病态, 会给模型带来很大误差。因此作回归时, 应选变量x1,x2,.xp中
40、的一部分作回归, 剔除一些变量。逐步回归法就是寻找较优子空间的一种变量选择方法。多元统计分析及R语言建模4.4 回归变量的选择方法多元统计分析及R语言建模向前引入法向后剔除法逐步筛选法多元统计分析及R语言建模fm=lm(yx1+x2+x3+x4, data=yX) fm.step=step(fm,direction=forward) #向前引入法变量选择结果R语言代码数据输出4.4 回归变量的选择方法多元统计分析及R语言建模fm.step=step(fm,direction=backward) #向后剔除法变量选择结果R语言代码数据输出4.4 回归变量的选择方法多元统计分析及R语言建模fm.s
41、tep=step(fm,direction=both) #逐步筛选法变量选择结果R语言代码数据输出4.4 回归变量的选择方法多元统计分析及建模 多元统计分析及R语言建模第第5章章 广义与一般线性模型及广义与一般线性模型及R使用使用多元统计分析及R语言建模第第5章章 广义与一般线性模型及广义与一般线性模型及R使用使用数据的分类与模型选择、广义线性模型概述、Logistic回归模型、对数线性模型、一般线性模型的计算。要求学生针对因变量和解释变量的取值性质,了解统计模型的类型。掌握数据的分类与模型选择方法,并对广义线性模型和一般线性模型有初步的了解。5.1 数据的分类与模型选择5.1 数据的分类与模
42、型选择2.模型选择方式模型选择方式:基本公式:基本公式 yX连续变量连续变量0-1变量变量有序变量有序变量多分类变量多分类变量连续伴有删失连续伴有删失连续变量线性回归方程logistic回归模型累积比数模型对数线性模型对数线性模型多分类logistic回归模型cox比例风险模型分类变量 实验设计模型(方差分析模型)连续变量分类变量协方差分析模型5.2 广义线性模型表表5.1 广义线性模型中的常用分布族广义线性模型中的常用分布族5.2 广义线性模型5.2 广义线性模型 2、Logistic模型模型:函数形式其中参数估计采用极大似然估计。对对45名驾驶员的调查结果,其中四个变量的含义为名驾驶员的调
43、查结果,其中四个变量的含义为:x 1 : 表 示表 示 视 力 状 况 , 它 是 一 个 分 类 变 量 ,视 力 状 况 , 它 是 一 个 分 类 变 量 , 1 表 示 好 ,表 示 好 , 0 表 示 有 问 题 ;表 示 有 问 题 ; x2:年龄,数值型;:年龄,数值型;x3:驾车教育,它也是一个分类变量,:驾车教育,它也是一个分类变量,1表示参加过驾车教育,表示参加过驾车教育,0表示没有;表示没有; y:分类变量(去年是否出过事故,:分类变量(去年是否出过事故,1表示出过事故,表示出过事故,0表示没有)。表示没有)。 5.2 广义线性模型d5.1=read.table(clip
44、board,header=T) #读取例读取例5.1数据数据 logit.glm-glm(yx1+x2+x3,family=binomial,data=d5.1) #Logistic回归模型回归模型summary(logit.glm) #Logistic回归模型结果回归模型结果得到初步的logistic回归模型:(1)建立全变量logistic回归模型:5.2 广义线性模型logit.step-step(logit.glm,direction=both) #逐步筛选法变量选择逐步筛选法变量选择由此得到新的logistic回归模型:(2)逐步筛选变量logistic回归模型:summary(lo
45、git.step) #逐步筛选法变量选择结果逐步筛选法变量选择结果5.2 广义线性模型pre1-predict(logit.step,data.frame(x1=1) #预测视力正常司机预测视力正常司机Logistic回归结果回归结果p1-exp(pre1)/(1+exp(pre1) #预测视力正常司机发生事故概率预测视力正常司机发生事故概率pre2-predict(logit.step,data.frame(x1=0) #预测视力有问题的司机预测视力有问题的司机Logistic回归结果回归结果p2-exp(pre2)/(1+exp(pre2) #预测视力有问题的司机发生事故概率预测视力有问题
46、的司机发生事故概率c(p1,p2) #结果显示结果显示(3):):预测发生交通事故的概率预测发生交通事故的概率5.2 广义线性模型 3、对数对数线性模型线性模型:函数:函数形式形式 式式2含有交叉效应含有交叉效应 某企业想了解顾客对其产品是否满意,同时还想了解不同收入的人群对其产品某企业想了解顾客对其产品是否满意,同时还想了解不同收入的人群对其产品的满意程度是否相同的满意程度是否相同。 满意满意不满意不满意合计合计高533891中434108542低11148159合计598194792在R语言中,数据需变形为:用y表示频数,x1表示收入人群,x2表示满意程度5.2 广义线性模型(1)建立Po
47、isson对数线性模型:从检验结果可看出,从检验结果可看出,p1=0.00310.01,p20.01,说明收入和满意程度对产品有重要影响,说明收入和满意程度对产品有重要影响5.3 一般线性模型一般线性模型 设有设有3台机器,用来生产规格相同的铝合金薄板。现从台机器,用来生产规格相同的铝合金薄板。现从3台机器生产出的薄板中各台机器生产出的薄板中各随机抽取随机抽取5块,测出厚度值,见下表,试分析各机器生产的薄板厚度有无显著差异?块,测出厚度值,见下表,试分析各机器生产的薄板厚度有无显著差异? 机器机器12.362.382.482.452.472.43机器22.572.532.552.542.562
48、.61机器32.582.642.592.672.662.625.2 广义线性模型d5.3=read.table(clipboard,header=T) #读取例读取例5.3数据数据 anova(lm(Yfactor(A),data=d5.3) #完全随机设计模型方差分析完全随机设计模型方差分析 P0.05,说明各种燃料,说明各种燃料A对火箭射程有无显著影响,对火箭射程有无显著影响,PB0.05,说明各种推进器,说明各种推进器B对火箭射程也无显著影响。对火箭射程也无显著影响。(1)数据格式为:案例分析 广义线性模型及其应用关于关于40个不同年龄(个不同年龄(age,定量变量)和性别(,定量变量)
49、和性别(sex,定性变量,用,定性变量,用0和和1代表代表女和男)的人对某项服务产品的观点(女和男)的人对某项服务产品的观点(y,二水平定性变量,用,二水平定性变量,用1和和0代表认可代表认可与不认可)的数据与不认可)的数据。一、一、数据管理数据管理二、二、R语言语言操作操作 拟合的模型为:拟合的模型为:Case4=read.table(clipboard,header=T);Case4fm=glm(ysex+age,family=binomial,data=Case4)fmsummary(fm)attach(Case4)Pr=predict(fm,data.frame(list(sex,ag
50、e) #模型预测模型预测p=exp(Pr)/(1+exp(Pr)cbind(sex,age,y,p)plot(age,Pr)detach(Case4)谢谢!第6章 判别分析及R使用多元统计分析及建模 多元统计分析及R语言建模6 判别分析及R使用多元统计分析及R语言建模6 判别分析及R使用理解理解判别分析的判别分析的目的及其目的及其统计统计思想思想了解了解并熟悉判别分析的三种并熟悉判别分析的三种类型类型掌握不同掌握不同判别方法的判别规则和判别方法的判别规则和判别函数判别函数利用利用R语言程序语言程序,实际计算,实际计算教材教材中中的习题的习题多元统计分析及R语言建模6 判别分析及R使用判别分析的