科研数据处理方法及应用.pptx

上传人:莉*** 文档编号:87306632 上传时间:2023-04-16 格式:PPTX 页数:124 大小:1.64MB
返回 下载 相关 举报
科研数据处理方法及应用.pptx_第1页
第1页 / 共124页
科研数据处理方法及应用.pptx_第2页
第2页 / 共124页
点击查看更多>>
资源描述

《科研数据处理方法及应用.pptx》由会员分享,可在线阅读,更多相关《科研数据处理方法及应用.pptx(124页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、科研数据处理方法概述2.评价与决策1 模糊综合评判2 主成分分析3 层次分析法(AHP)4 数据包络(DEA)分析法 5 秩和比综合评价法 6 优劣解距离法(TOPSIS法)7 投影寻踪综合评价法8.方差分析、协方差分析等第1页/共124页3.分类与判别1 距离聚类2.关联性聚类3.层次聚类4.密度聚类3.其他聚类6.贝叶斯判别7.费舍尔判别8.模糊识别科研数据处理方法概述第2页/共124页科研数据处理方法概述4.关联与因果灰色关联分析方法Person相关Sperman或kendall等级相关系数Copula相关典型相关系数标准化回归路径分析分析生存分析(事件史分析)格兰杰因果检验第3页/共1

2、24页科研数据处理方法概述3.优化与控制线性规划、整数规划、0-1规划非线性规划与智能优化算法多目标规划和目标规划动态规划网络优化排队论与计算机仿真模糊规划灰色规划第4页/共124页1.模糊综合评价1.1 模糊数学基本概念 人脑较之精确计算机,就是能在信息不完整不精确的情况下,作出判断与决策,模糊性常常是信息浓缩所致,目的是为了提高交换的概率,所以不是毫无用处,而是积极的特性。如果到火车站去接人,如下描述“大胡子,高个子,长头发戴宽边黑色眼镜的中年男人”除了男人的信息是精确的之外,其它信息全是模糊的,但是我们却能够找到那个人。第5页/共124页经典集合与特征函数 集合:具有某种特定属性的对象集

3、体。通常用大写字母A、B、C等表示。论域:对局限于一定范围内进行讨论的对象的全体。通常用大写字母U、V、X、Y等表示。论域U中的每个对象u称为U的元素。1.模糊综合评价第6页/共124页在论域U中任意给定一个元素u及任意给定一个经典集合A,则必有 或者 ,用函数表示为:其中函数 称为集合A的特征函数。1.模糊综合评价第7页/共124页模糊集合及其运算美国控制论专家Zadeh教授正视了经典集合描述的“非此即彼”的清晰现象,提示了现实生活中的绝大多数概念并非都是“非此即彼”那么简单,而概念的差异常以中介过渡的形式出现,表现为“亦此亦彼”的模糊现象。基于此,1965年,Zadeh教授在Informa

4、tion and Control杂志上发表了一篇开创性论文“Fuzzy Sets”,标志着模糊数学的诞生。1.模糊综合评价第8页/共124页1)模糊子集定义:设U是论域,称映射确定了一个U上的模糊子集 。映射 称为 隶属函数,称为 对 的隶属程度,简称隶属度。模糊子集 由隶属函数 唯一确定,故认为二者是等同的。为简单见,通常用A来表示 和 。1.模糊综合评价第9页/共124页论域模糊集 A:高个子定义隶属函数(具有主观性):模糊集并不再回答“是或不是”的问题,而是对每个对象给一个隶属度,所以与经典集有本质区别。而且与隶属函数是捆绑一起的,所以可以不做区分。(还是经典集合)(Zadeh表示法)1

5、.模糊综合评价第10页/共124页模糊子集通常简称模糊集,其表示方法有:(1)Zadeh表示法这里 表示 对模糊集A的隶属度是 。如“将一1,2,3,4组成一个小数的集合”可表示为可省略1.模糊综合评价第11页/共124页(3)向量表示法(2)序偶表示法若论域U为无限集,其上的模糊集表示为:1.模糊综合评价第12页/共124页2)模糊集的运算定义:设A,B是论域U的两个模糊子集,定义相等:包含:并:交:余:表示取大;表示取小。1.模糊综合评价第13页/共124页几个常用的算子:(1)Zadeh算子(2)取大、乘积算子(3)环和、乘积算子1.模糊综合评价第14页/共124页(4)有界和、取小算子

6、(5)有界和、乘积算子(6)Einstain算子1.模糊综合评价第15页/共124页3)模糊矩阵定义:设 称R为模糊矩阵。当 只取0或1时,称R为布尔(Boole)矩阵。当模糊方阵 的对角线上的元素 都为1时,称R为模糊自反矩阵。(1)模糊矩阵间的关系及运算定义:设 都是模糊矩阵,定义相等:包含:1.模糊综合评价第16页/共124页并:交:余:例:1.模糊综合评价第17页/共124页(2)模糊矩阵的合成定义:设 称模糊矩阵为A与B的合成,其中 。例:1.模糊综合评价第18页/共124页(3)模糊矩阵的转置定义:设 称 为A的转置矩阵,其中 。(4)模糊矩阵的 截矩阵定义:设 对任意的 称为模糊

7、矩阵A的 截矩阵,其中1.模糊综合评价第19页/共124页例:1.模糊综合评价第20页/共124页隶属函数的确定1)模糊统计法模糊统计试验的四个要素:(1)论域U;(2)U中的一个固定元素(3)U中的一个随机运动集合(4)U中的一个以 作为弹性边界的模糊子集A,制约着 的运动。可以覆盖 也可以不覆盖致使 对A的隶属关系是不确定的。1.模糊综合评价第21页/共124页特点:在各次试验中,是固定的,而 在随机变动。模糊统计试验过程:(1)做n次试验,计算出(2)随着n的增大,频率呈现稳定,此稳定值即为对A的隶属度:第22页/共124页2)指派方法这是一种主观的方法,但也是用得最普遍的一种方法。它是

8、根据问题的性质套用现成的某些形式的模糊分布,然后根据测量数据确定分布中所含的参数。3、其它方法德尔菲法:专家评分法;二元对比排序法:把事物两两相比,从而确定顺序,由此决定隶属函数的大致形状。主要有以下方法:相对比较法、择优比较法和对比平均法等。1.模糊综合评价第23页/共124页1.2 模糊综合评判一级模糊综合评判1.模糊综合评价第24页/共124页1.模糊综合评价第25页/共124页根据运算的不同定义,可得到以下不同模型:最后得到一个评价向量1.模糊综合评价第26页/共124页1.模糊综合评价第27页/共124页1.模糊综合评价第28页/共124页其中:1.模糊综合评价第29页/共124页1

9、.模糊综合评价第30页/共124页1.模糊综合评价第31页/共124页1.模糊综合评价第32页/共124页输入数据:R=0.2 0.5 0.2 0.1;0.7 0.2 0.1 0;0 0.4 0.5 0.1;0.2 0.3 0.5 0A1=0.1 0.2 0.3 0.4A2=0.4 0.35 0.15 0.1调用函数:B=fuzzy_zhpj(1,A1,R)输出结果:B=0.2000 0.3000 0.4000 0.1000 调用函数:B=fuzzy_zhpj(1,A2,R)输出结果:B=0.3500 0.4000 0.2000 0.1000 1.模糊综合评价第33页/共124页因素集评判集第

10、34页/共124页第35页/共124页1.模糊综合评价第36页/共124页多级模糊综合评判(以二级为例)问题:对高等学校的评估可以考虑如下方面高等学校1.模糊综合评价第37页/共124页二级模糊综合评判的步骤:1.模糊综合评价第38页/共124页1.模糊综合评价第39页/共124页1.模糊综合评价第40页/共124页1.模糊综合评价第41页/共124页1.模糊综合评价第42页/共124页第43页/共124页1.模糊综合评价第44页/共124页1.模糊综合评价第45页/共124页假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、

11、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?当然不能。你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。2.主成分分析第46页/共124页每个人都会遇到有很多变量的数据。比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。在引进主成分分析之前,先看下面的例子。2.主成分分析第47页/共124页100个学生的数学、物理、化学、语文、

12、历史、英语的成绩如下表(部分)。2.主成分分析第48页/共124页目前的问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。2.主成分分析第49页/共124页选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之和的大约80%即可,其实,这只是一个大体的说法;具体选几个,要看实际情况而定。2.主成分分析第50页/共124页

13、主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。一般来说,我们希望这些主成分能够反映原始变量的绝大部分信息(它们通常表示为原始变量的某种线性组合),并具有最大的方差。2.主成分分析第51页/共124页1.对原始数据矩阵进行标准化处理(相当于对原始变量进行坐标平移与尺度伸缩)主成分的求解步骤:假设对p个变量进行n次观测得到的观测数据可用下面的矩阵表示将其进行标准化处理2.主成分分析第52页/共124页iii)特征分解得 (相当于将原来的坐标轴进行旋转得到新的坐标轴U)ii)求协方差矩阵Z Z的特征值组成的对角阵U Z的特征向量按列组成的正交阵,它构成了新的矢

14、量空间,作为新变量(主成分)的坐标轴,又称为载荷轴。得Z的p个非负特征值 ,这p个特征值就是主成分的方差。2.主成分分析第53页/共124页iv)确定主成分个数(根据累积贡献率)当 大于某个阈值时,可认为主成分数目为m。v)写出主成分表达式 Z阵的每一行相当于原数据矩阵的所有行(即原始变量构成的向量)在主成分坐标轴(载荷轴)上的投影,这些新的投影构成的向量就是主成分得分向量。2.主成分分析第54页/共124页Vi)构造评价函数将每个样本的主成分带入评价函数,得到每个样本的综合得分,依据一定的准则可对样本进行排序。2.主成分分析第55页/共124页例:以下是收集整理了的1990-2002年13年

15、间影响中国蔬菜产量的若干因素数据,请你对这些影响因素作主成分分析,并分析结果。11.517.672.主成分分析第56页/共124页data ex;input x1-x13;cards;/*数据省略*/;proc princomp out=prin;/*主成分分析模块*/var x1-x13;run;proc print data=prin;var prin1-prin13;run;2.主成分分析第57页/共124页程序中对应运行结果为:从程序结果可以看出,第一、第二、第三主成分累计解释方差的比率已经超过了94%,所以只需要求1、2、2所对应的正交化特征向量i(i=1,2,3)2.主成分分析第5

16、8页/共124页1=(0.31,0.29,0.22,0.30,0.09,0.31,0.30,0.30,0.30,0.31,0.31,0.31,0.13),2=(0.03,0.23,0.51,0.11,0.77,0.01,0.09,0.13,0.19,0.07,0.04,0.03,0.09),3=(0.03,0.03,0.24,0.08,0.01,0.03,0.02,0.06,0.04,0.03,0.08,0.05,0.96)可知:其中第59页/共124页 第一主成分与蔬菜种植面积、每公顷物质费用、蔬菜零售物价指数、市场化程度、城市化水平1、城市化水平2、交通、城镇居民可支配收入、农村居民纯收入

17、、农民文化素质等密切相关,表示的是市场经济综合因素,着重反映的是市场经济的成熟程度与国家现代化水平;第二主成分与每公顷劳动投入、成本纯收益率等密切相关,表示的是劳动者动力因素;第三主成分与气候条件密切相关,显然表示的是气候因素。2.主成分分析第60页/共124页主成分得分2.主成分分析第61页/共124页3.层次分析法层次分析法(Analytic Hierarchy Process,简称AHP)是对一些较为复杂、较为模糊的问题作出决策的简易方法,它特别适用于那些难于完全定量分析的问题。它是美国运筹学家T.L.Saaty 教授于上世纪70 年代初期提出的一种简便、灵活而又实用的多准则决策方法。第

18、62页/共124页层次分析模型背景 日常工作、生活中的决策问题 涉及经济、社会等方面的因素 作比较判断时人的主观选择起相当大的作用,各因素的重要性难以量化 AHP一种定性与定量相结合的、系统化、层次化的分析方法3.层次分析法第63页/共124页目标层O(选择旅游地)P2黄山P1桂林P3北戴河准则层方案层C3居住C1景色C2费用C4饮食C5旅途3.1层次分析法的基本步骤例.选择旅游地如何在3个目的地中按照景色、费用、居住条件等因素选择.3.层次分析法第64页/共124页“选择旅游地”思维过程的归纳 将决策问题分为3个层次:目标层O,准则层C,方案层P;每层有若干元素,各层元素间的关系用相连的直线

19、表示。通过相互比较确定各准则对目标的权重,及各方案对每一准则的权重。将上述两组权重进行综合,确定各方案对目标的权重。层次分析法将定性分析与定量分析结合起来完成以上步骤,给出决策问题的定量结果。3.层次分析法第65页/共124页成对比较阵和权向量 元素之间两两对比,对比采用相对尺度 设要比较各准则C1,C2,Cn对目标O的重要性A成对比较阵A是正互反阵要由A确定C1,Cn对O的权向量选择旅游地3.层次分析法第66页/共124页成对比较的不一致情况一致比较不一致成对比较阵和权向量3.层次分析法第67页/共124页允许不一致,但要确定不一致的允许范围考察完全一致的情况3.层次分析法第68页/共124

20、页成对比较完全一致的情况满足的正互反阵A称一致阵,如成对比较阵和权向量3.层次分析法第69页/共124页若矩阵A=(aij)mxn满足以下特征:(1)aij0(2)aij=1(当 i=j)(3)aij=1/aji(当ij)则称矩阵A 为正互反矩阵。3.层次分析法第70页/共124页 A的秩为1,A的唯一非零特征根为n A的任一列向量是对应于n 的特征向量 A的归一化特征向量可作为权向量对于不一致(但在允许范围内)的成对比较阵A,建议用对应于最大特征根的特征向量作为权向量w,即一致阵性质3.层次分析法第71页/共124页2 4 6 8比较尺度aij Saaty等人提出19尺度aij 取值1,2,

21、9及其互反数1,1/2,1/9尺度 1 3 5 7 9 相同 稍强 强 明显强 绝对强 便于定性到定量的转化:成对比较阵和权向量3.层次分析法第72页/共124页3.层次分析法第73页/共124页aij=1,1/2,1/9的重要性与上面相反 心理学家认为成对比较的因素不宜超过9个 用13,15,117,1p9p(p=2,3,4,5),d+0.1d+0.9(d=1,2,3,4)等27种比较尺度对若干实例构造成对比较阵,算出权向量,与实际对比发现,19尺度较优。3.层次分析法第74页/共124页一致性检验对A确定不一致的允许范围已知:n 阶一致阵的唯一非零特征根为n可证:n 阶正互反阵最大特征根

22、n,且=n时为一致阵定义一致性指标:CI 越大,不一致越严重3.层次分析法第75页/共124页RI0 0 0.58 0.90 1.12 1.24 1.32 1.41 1.45 1.49 1.51 n1 234567891110为衡量CI 的大小,引入随机一致性指标 RI随机模拟得到aij,形成A,计算CI 即得RI。定义一致性比率 CR=CI/RI 当CR0.1时,通过一致性检验Saaty的结果如下3.层次分析法第76页/共124页“选择旅游地”中准则层对目标的权向量及一致性检验准则层对目标的成对比较阵最大特征根=3.073权向量(特征向量)w=(0.263,0.475,0.055,0.090

23、,0.110)T一致性指标随机一致性指标 RI=1.12(查表)一致性比率CR=0.018/1.12=0.0160.1通过一致性检验3.层次分析法第77页/共124页组合权向量记第2层(准则)对第1层(目标)的权向量为同样求第3层(方案)对第2层每一元素(准则)的权向量方案层对C1(景色)的成对比较阵方案层对C2(费用)的成对比较阵CnBn最大特征根 1 2 n 权向量 w1(3)w2(3)wn(3)3.层次分析法第78页/共124页第3层对第2层的计算结果k10.5950.2770.1293.0050.0030.00100.00503.0020.6820.2360.082230.1420.4

24、290.42933.0090.1750.1930.633430.6680.1660.1665组合权向量RI=0.58(n=3),CIk 均可通过一致性检验 w(2)方案P1对目标的组合权重为0.5950.263+=0.300方案层对目标的组合权向量为(0.300,0.246,0.456)T3.层次分析法第79页/共124页组合权向量第1层O第2层C1,Cn第3层P1,Pm第2层对第1层的权向量第3层对第2层各元素的权向量构造矩阵则第3层对第1层的组合权向量第s层对第1层的组合权向量其中W(p)是由第p层对第p-1层权向量组成的矩阵3.层次分析法第80页/共124页层次分析法的基本步骤1)建立层

25、次分析结构模型深入分析实际问题,将有关因素自上而下分层(目标准则或指标方案或对象),上层受下层影响,而层内各因素基本上相对独立。2)构造成对比较阵用成对比较法和19尺度,构造各层对上一层每一因素的成对比较阵。3)计算权向量并作一致性检验对每一成对比较阵计算最大特征根和特征向量,作一致性检验,若通过,则特征向量为权向量。4)计算组合权向量(作组合一致性检验*)组合权向量可作为决策的定量依据。第81页/共124页3.2 层次分析法的广泛应用 应用领域:经济计划和管理,能源政策和分配,人才选拔和评价,生产决策,交通运输,科研选题,产业结构,教育,医疗,环境,军事等。处理问题类型:决策、评价、分析、预

26、测等。建立层次分析结构模型是关键一步,要有主要决策层参与。构造成对比较阵是数量依据,应由经验丰富、判断力强的专家给出。3.层次分析法第82页/共124页国家综合实力国民收入军事力量科技水平社会稳定对外贸易美、俄、中、日、德等大国工作选择贡献收入发展声誉关系位置供选择的岗位例1 国家实力分析例2 工作选择3.层次分析法第83页/共124页过河的效益 A经济效益B1社会效益B2环境效益B3节省时间C1收入C2岸间商业C3当地商业C4建筑就业C5安全可靠C6交往沟通C7自豪感C8舒适C9进出方便C10美化C11桥梁D1隧道D2渡船D3(1)过河效益层次结构例3 横渡江河、海峡方案的抉择3.层次分析法

27、第84页/共124页过河的代价 A经济代价 B1环境代价B3社会代价B2投入资金C1操作维护C2冲击渡船业C3冲击生活方式C4交通拥挤C5居民搬迁C6汽车排放物C7对水的污染C8对生态的破坏C9桥梁D1隧道D2渡船D2(2)过河代价层次结构例3 横渡江河、海峡方案的抉择3.层次分析法第85页/共124页待评价的科技成果直接经济效益 C11间接经济效益 C12社会效益 C13学识水平 C21学术创新 C22技术水平 C23技术创新 C24效益C1水平C2规模C3科技成果评价例4 科技成果的综合评价3.层次分析法第86页/共124页 如果在单因素、双因素或多因素试验中有无法控制的因素x影响试验的结

28、果Y,且x可以测量、x与Y之间又有显著的线性回归时,常常利用线性回归来矫正Y的观测值、消去x的差异对Y的影响。例如,研究施肥对苹果树产量的影响,由于苹果树的长势不齐,必须消去长势对产量的影响。又如,研究饲料对动物增重的影响,由于动物的初重不同,必须消去初重对增重的影响。4.4.协方差分析协方差分析第87页/共124页 这种不是在试验中控制某个因素,而是在试验后对该因素的影响进行估计,并对试验指标的值作出调整的方法称为统计控制,可以作为试验控制的辅助手段。以统计控制为目的,综合线性回归分析与方差分析所得到的统计分析方法,称为协方差分析,所需要统计控制的一个或多个因素,例如苹果树的长势,又如动物的

29、初重等等称为协变量。4.协方差分析第88页/共124页4.协方差分析第89页/共124页4.协方差分析第90页/共124页4.协方差分析第91页/共124页4.协方差分析第92页/共124页4.协方差分析第93页/共124页data ex;do a=1 to 3;do i=1 to 8;input x y ;output;end;end;cards;47 54 58 66 53 63 46 51 49 56 56 66 54 61 44 50 52 54 53 53 64 67 58 62 59 62 61 63 63 64 66 69 44 52 48 58 46 54 50 61 59 7

30、0 57 64 58 69 53 66;proc glm;class a;model y=x a/solution;lsmeans a/stderr pdiff;run;4.4.协方差分析协方差分析第94页/共124页4.协方差分析第95页/共124页 施用三种肥料的产量矫正后有极显著的差异 4.协方差分析第96页/共124页 方差来源方差来源平方和平方和自由度自由度 均方和均方和 F值值 显著性显著性 A QA r-1 MQA FA B QB s-1 MQB FB 误差误差 QErs-r-s MQE 总和总和 QT rs-24.4.协方差分析协方差分析第97页/共124页4.协方差分析第98

31、页/共124页 data ex;do a=1 to 3;do b=1 to 5;input x y ;output;end;end;cards;8 2.85 10 4.24 12 3.00 11 4.94 10 2.8810 3.14 12 4.50 7 2.75 12 5.84 10 4.0612 3.88 10 3.86 9 2.82 10 4.94 9 2.89;proc glm;class a b;model y=x a b/solution;lsmeans a b/stderr pdiff;run;4.协方差分析第99页/共124页4.协方差分析第100页/共124页 方差来源方差来

32、源平方和平方和 自由自由度度 均方均方和和 F值值 显著显著性性 A0.6046 2 0.3023 2.49 N B7.1245 4 1.7811 14.66 *误差误差0.8502 7 0.1215 总和总和8.5793 1各小区的产量矫正后没有显著的差异,各品种的产量矫正后有极显著的差异。4.协方差分析第101页/共124页 方差来源方差来源平方平方和和自由度自由度 均方和均方和 F值值 显著显著性性 A QA r-1 MQA FA B QB s-1 MQB FB AB QAB(r-1)(s-1)MQAB FAB 误差误差 QErs(m-1)-1 MQE 总和总和 QT rsm-24.4.

33、协方差分析协方差分析第102页/共124页4.协方差分析第103页/共124页data ex;do a=1 to 4;do b=1 to 2;do i=1 to 2;input x y;output;end;end;end;cards;14.6 97.8 12.1 94.2 19.5 11.2 18.8110.1 1.6 100.3 12.9 98.5 18.5 119.4 12.2 114.7 12.8 99.2 10.7 89.612.2122.2 16.9 105.3 12.0 102.1 12.4 103.8 16.4 117.2 17.2 117.9proc glm;class a

34、b;model y=x a ba*b/solution;lsmeans a b/stderr pdiff;run;4.4.协方差分析协方差分析第104页/共124页4.协方差分析第105页/共124页 方差来源方差来源 平方和平方和自由度自由度 均方和均方和 F值值显著性显著性 A277.43485 392.4782866.51 *B 2.845259 3 2.845259 0.20 N AB 12.848100 1 4.282700 0.30 N 误差误差 99.441171 714.205882 A与B的交互作用矫正后不显著,促生长剂之间的差异极显著,试验批次间的差异不显著 4.协方差分析

35、第106页/共124页5.5.混合线性模型混合线性模型通过一个例子讲述混合线性模型的使用艾滋病疗法的评价艾滋病是当前人类社会最严重的瘟疫之一,从1981年发现以来的20多年间,它已经吞噬了近3000万人的生命。艾滋病的医学全名为“获得性免疫缺损综合症”,英文简称AIDS,它是由艾滋病毒(医学全名为“人体免疫缺损病毒”,英文简称HIV)引起的。这种病毒破坏人的免疫系统,使人体丧失抵抗各种疾病的能力,从而严重危害人的生命。人类免疫系统的CD4细胞在抵御HIV的入侵中起着重要作用,当CD4被HIV感染而裂解时,其数量会急剧减少,HIV将迅速增加,导致AIDS发作。第107页/共124页艾滋病治疗的目

36、的,是尽量减少人体内HIV的数量,同时产生更多的CD4,至少要有效地降低CD4减少的速度,以提高人体免疫能力。迄今为止人类还没有找到能根治AIDS的疗法,目前的一些AIDS疗法不仅对人体有副作用,而且成本也很高。许多国家和医疗组织都在积极试验、寻找更好的AIDS疗法。5.5.混合线性模型混合线性模型第108页/共124页请你完成以下问题:(1)利用附件1的数据,预测继续治疗的效果,或者确定最佳治疗终止时间(继续治疗指在测试终止后继续服药,如果认为继续服药效果不好,则可选择提前终止治疗)。(2)利用附件2的数据,评价4种疗法的优劣(仅以CD4为标准),并对较优的疗法预测继续治疗的效果,或者确定最

37、佳治疗终止时间。(3)艾滋病药品的主要供给商对不发达国家提供的药品价格如下:600mg zidovudine 1.60美元,400mg didanosine 0.85美元,2.25 mg zalcitabine 1.85美元,400 mg nevirapine 1.20美元。如果病人需要考虑4种疗法的费用,对(2)中的评价和预测(或者提前终止)有什么改变。5.5.混合线性模型混合线性模型第109页/共124页ID 疗法 年龄 时间 Log(CD4 count+1)1236.4271 03.1355 1236.4271 7.57143.0445 1236.4271 15.5714 2.7726

38、1236.4271 23.5714 2.8332 1236.4271 32.5714 3.2189 1236.4271 403.0445 2447.8467 03.0681 2447.8467 83.8918 2447.8467 163.9703 2447.8467 233.6109 2447.8467 30.7143 3.3322 2447.8467 393.0910 3160.2875 03.7377 4336.5969 04.1190 4336.5969 7.14294.1109 4336.5969 16.1429 4.7095 5.5.混合线性模型混合线性模型第110页/共124页对4

39、种疗法的疗效评价的分析对题目所给的附件2的数据进行分析可知,决定病人的CD4的浓度的因素有年龄,检查的时刻,治疗方案这三个因素。因此我们将年龄分成5类,检查的时刻分为4个时间段,治疗方案有4种。而问题是以CD4的浓度为标准来评价疗效的优劣,即CD4的浓度越大,那么疗效越好。由于考虑题中所给的样本有6000多个(病人的个数*各个病人检查的次数),因此我们考虑用MIXED(混合线性模型)。下面我们就混合线性模型的原理进行说明。5.5.混合线性模型混合线性模型第111页/共124页混合线性模型过程是拟合许多不同数据的混合线性模型,并利用所拟合的模型对数据进行统计推断。首先混合线性模型的主要假设是数据

40、服从正态分布,由于本题所给的数据的样本容量有6000多个,因此,我们可认为它服从正态分布。又由于正态分布的数据可完全有均值和方差确定,因此一个混合线性模型是由两个模型决定的。分别是均值模型和方差模型。MIXED使用约束最大似然的方法来拟合数据的。一旦数据的模型已经建立,我们可以使用该模型通过固定效应参数和协方差参数进行统计推断。用这些统计量可以对模型进行评价。5.混合线性模型第112页/共124页再者,该分析的重要假设是数据是正态分布的,由于附录2的数据是分类数据。数据出现在类(如可能是同一年龄段中),那可能的情况是来自同一年龄段的这些CD4的值是相关的,不是独立的。鉴于此,由于附录2所给的数

41、据是高度数据(即样本容量很大),那么考虑这种因素是相关。因此我们对这些因素进行相关性建模,我们使用随机效用。在本题中,我们规定年龄、检查时刻为随机效应,即使得具有相同年龄水平或相同检查时刻的水平之间存在共同的相关性,那么,此模型才较为合理。5.混合线性模型第113页/共124页对4种疗法的疗效模型的建立1)数据的处理a、所有病人的年龄是在14.9021,74.193的区间内,以(74.193-14.9021)/5=11.85818为区间长度。我们将患者按照年龄阶段分为5级,分别记作1至5b、我们将患者所接受的治疗方法分为4种,分别记作1至4;c、我们将病人的检查的时刻0,40以10为区间长度,

42、分为4级,分别记作1至4 5.混合线性模型第114页/共124页5.混合线性模型第115页/共124页2)确定固定效应和随机效应固定效用是设计者所研究的因素,在此题中为4种疗法。因为病人的年龄是随机的,并且病人接受检验的时刻是也是随机进行的,故病人的年龄和病人接受检验的治疗时刻应该为随机效应。5.混合线性模型第116页/共124页3)协方差结构的选择模型中具体选用哪种结构矩阵:在相同模型结构下,选择几个不同结构的协方差矩阵,从中选取似然比统计量(-2Log Likeli-hood)、Akaikes Information Schwartz Bayesian三个指标均较小的一个,通常以AIC为主

43、要判断指标。依据专业知识和文献,在此模型中选用符合对称结构CS、不规则结构UN、一阶自回归结构AR(1)、空间幂相关结构 SP(POW)。5.5.混合线性模型混合线性模型第117页/共124页4)建立混合线性模型的线性模型,如下:5.5.混合线性模型混合线性模型第118页/共124页data ex;input name a x1 x2 y;if x126.76 then x1=1;if 26.76=x141.662 then x1=2;if 41.662=x156.56 then x1=3;if 56.56=x171.467 then x1=4;if 71.467=x1 then x1=5;i

44、f x210 then x2=1;if 10=x220 then x2=2;if 20=x230 then x2=3;if 30=x2 then x2=4;cards;1 2 36.4271 0 3.13551 2 36.4271 7.5714 3.04451 2 36.4271 15.5714 2.77261 2 36.4271 23.5714 2.83325.5.混合线性模型混合线性模型第119页/共124页1313 1 15.8412 20 4.40671313 1 15.8412 27 3.55531313 1 15.8412 35 3.4657;proc glm;class a x1 x2;model y=a x1 x2;means a/duncan;proc mixed;class a x1 x2;model y=a;random x1 x2;lsmeans a;run;5.5.混合线性模型混合线性模型第120页/共124页5.混合线性模型第121页/共124页5.混合线性模型第122页/共124页5.混合线性模型第123页/共124页感谢您的观看!第124页/共124页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > PPT文档

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁