《【教学课件】第三章随机数学模型.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第三章随机数学模型.ppt(182页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章第三章 随机数学模型随机数学模型3.1 3.1 多元回归与最优逐步回归多元回归与最优逐步回归 3.2 3.2 主成份分析与相关分析主成份分析与相关分析3.3 3.3 判别分析判别分析3.4 3.4 聚类分析聚类分析3.5 3.5 模糊聚类分析模糊聚类分析3.6 3.6 马尔可夫链及其应用马尔可夫链及其应用3.7 3.7 存贮论存贮论3.8 3.8 排队论模型排队论模型 3.9 3.9 层次分析法建模层次分析法建模 3.1 多元回归与最优逐步回归多元回归与最优逐步回归一、数学模型一、数学模型二、模型的分析与检验二、模型的分析与检验 三、回归方程系数的显著性检验三、回归方程系数的显著性检验四
2、、回归方程进行预测预报和控制四、回归方程进行预测预报和控制五、最优逐步回归分析五、最优逐步回归分析一、数学模型一、数学模型设可控或不可控的自变量设可控或不可控的自变量设可控或不可控的自变量设可控或不可控的自变量 ;目标函数;目标函数;目标函数;目标函数 ,已测得的,已测得的,已测得的,已测得的n n组数据为:组数据为:组数据为:组数据为:(1.1)(1.1)其中其中其中其中 是系统的测试数据,相当是系统的测试数据,相当是系统的测试数据,相当是系统的测试数据,相当于如下模型:设多目标系统为于如下模型:设多目标系统为于如下模型:设多目标系统为于如下模型:设多目标系统为:系统为简化问题,不妨设该系统
3、为单目标系统,且由函数关系为简化问题,不妨设该系统为单目标系统,且由函数关系 ,可以设:,可以设:(1.2)可得如下线性模型可得如下线性模型 (1.3)为测量误差,相互独立,为测量误差,相互独立,。令令 可得可得可得可得 (1.41.4)(1.4)(1.4)称为线性回归方程的数学模型。称为线性回归方程的数学模型。称为线性回归方程的数学模型。称为线性回归方程的数学模型。利用最小二乘估计或极大似然估计,令利用最小二乘估计或极大似然估计,令利用最小二乘估计或极大似然估计,令利用最小二乘估计或极大似然估计,令 使,使,使,使,由方程组由方程组由方程组由方程组 (1.5)(1.5)可得系数可得系数可得系
4、数可得系数 的估计。的估计。的估计。的估计。令令令令 方阵可逆,由模型可得:方阵可逆,由模型可得:方阵可逆,由模型可得:方阵可逆,由模型可得:即有即有即有即有 (1.6)(1.6)可以证明可以证明可以证明可以证明(1.6)(1.6)与与与与(1.5)(1.5)是同解方程组的解,它是最优线性无偏是同解方程组的解,它是最优线性无偏是同解方程组的解,它是最优线性无偏是同解方程组的解,它是最优线性无偏估量,满足很多良好的性质,另文补讲估量,满足很多良好的性质,另文补讲估量,满足很多良好的性质,另文补讲估量,满足很多良好的性质,另文补讲。二、模型的分析与检验二、模型的分析与检验设目标函数设目标函数设目标
5、函数设目标函数 的平均值,的平均值,的平均值,的平均值,则由公式可计算得总偏差平方和,回归和剩余平则由公式可计算得总偏差平方和,回归和剩余平则由公式可计算得总偏差平方和,回归和剩余平则由公式可计算得总偏差平方和,回归和剩余平方和:方和:方和:方和:假设检验:假设检验:假设检验:假设检验:至少有一个不为零至少有一个不为零至少有一个不为零至少有一个不为零结论是:当结论是:当结论是:当结论是:当 当当当当 被拒绝以后,说明方程被拒绝以后,说明方程被拒绝以后,说明方程被拒绝以后,说明方程(2)(2)中系数不全为零,方程中系数不全为零,方程中系数不全为零,方程中系数不全为零,方程配得合理。否则在被接受以
6、后,说明方程配得不合适,配得合理。否则在被接受以后,说明方程配得不合适,配得合理。否则在被接受以后,说明方程配得不合适,配得合理。否则在被接受以后,说明方程配得不合适,即变量即变量即变量即变量 对目标函数都没有影响,对目标函数都没有影响,对目标函数都没有影响,对目标函数都没有影响,则要从另外因素去考虑该系统。则要从另外因素去考虑该系统。则要从另外因素去考虑该系统。则要从另外因素去考虑该系统。三、回归方程系数的显著性检验三、回归方程系数的显著性检验假设假设假设假设 备选假设备选假设备选假设备选假设 可以证得:可以证得:可以证得:可以证得:(1.8)(1.8)或者或者或者或者 的对角线元素。的对角
7、线元素。的对角线元素。的对角线元素。.当当当当 时,时,时,时,显著不为零,方程显著不为零,方程显著不为零,方程显著不为零,方程(1.2)(1.2)中中中中 第第第第 j j个变量作用个变量作用个变量作用个变量作用显著。若有某一个系数显著。若有某一个系数显著。若有某一个系数显著。若有某一个系数 假设被接受,假设被接受,假设被接受,假设被接受,则应从方程中剔除。然后从头开始进行一次回则应从方程中剔除。然后从头开始进行一次回则应从方程中剔除。然后从头开始进行一次回则应从方程中剔除。然后从头开始进行一次回归分析工作。归分析工作。归分析工作。归分析工作。四、回归方程进行预测预报和控制四、回归方程进行预
8、测预报和控制 经过回归分析得到经验回归方程为经过回归分析得到经验回归方程为经过回归分析得到经验回归方程为经过回归分析得到经验回归方程为 (1.9)(1.9)设要在某已知点上进行预测,可得点估计:设要在某已知点上进行预测,可得点估计:设要在某已知点上进行预测,可得点估计:设要在某已知点上进行预测,可得点估计:(1.10)(1.10)下面对预测预极值进行区间估计,可以证得下面对预测预极值进行区间估计,可以证得下面对预测预极值进行区间估计,可以证得下面对预测预极值进行区间估计,可以证得 其中其中其中其中 得得 的预测区间:的预测区间:五、最优逐步回归分析五、最优逐步回归分析 在线性回归分析中,当经过
9、检验,方程在线性回归分析中,当经过检验,方程在线性回归分析中,当经过检验,方程在线性回归分析中,当经过检验,方程(1.2)(1.2)作用显著,但作用显著,但作用显著,但作用显著,但 为显著为显著为显著为显著,说明说明说明说明 不起作用,要从方程中剔除出去,一切都要从不起作用,要从方程中剔除出去,一切都要从不起作用,要从方程中剔除出去,一切都要从不起作用,要从方程中剔除出去,一切都要从头算起,很麻烦。这里介绍的方法是光对因子头算起,很麻烦。这里介绍的方法是光对因子头算起,很麻烦。这里介绍的方法是光对因子头算起,很麻烦。这里介绍的方法是光对因子 逐个检验,确认它在方程中的作用的显著程度,然后依大到
10、小逐个检验,确认它在方程中的作用的显著程度,然后依大到小逐个检验,确认它在方程中的作用的显著程度,然后依大到小逐个检验,确认它在方程中的作用的显著程度,然后依大到小逐次引入变量到方程,并及时进行检验,去掉作用不显著的因逐次引入变量到方程,并及时进行检验,去掉作用不显著的因逐次引入变量到方程,并及时进行检验,去掉作用不显著的因逐次引入变量到方程,并及时进行检验,去掉作用不显著的因子,依次循环,到最后无因子可以进入方程,亦无因子被从方子,依次循环,到最后无因子可以进入方程,亦无因子被从方子,依次循环,到最后无因子可以进入方程,亦无因子被从方子,依次循环,到最后无因子可以进入方程,亦无因子被从方程中
11、剔除,这个方法称为最优逐步回归法。程中剔除,这个方法称为最优逐步回归法。程中剔除,这个方法称为最优逐步回归法。程中剔除,这个方法称为最优逐步回归法。从方程从方程从方程从方程(1.2)(1.2)中中中中,为方便计为方便计为方便计为方便计,设变量个数设变量个数设变量个数设变量个数 ,记记记记 可得可得可得可得 (1.12)(1.12)此时仍可得此时仍可得此时仍可得此时仍可得 是回归估计值是回归估计值是回归估计值是回归估计值回归方程为回归方程为回归方程为回归方程为 (1.13)(1.13)分别是分别是分别是分别是 的系数的系数的系数的系数估计。为了减少误差积累与放大,进行数据中心化标估计。为了减少误
12、差积累与放大,进行数据中心化标估计。为了减少误差积累与放大,进行数据中心化标估计。为了减少误差积累与放大,进行数据中心化标 准化处理:准化处理:准化处理:准化处理:(1.14)可得数学模型为:可得数学模型为:(1.15)经推导可得:经推导可得:,称为系数相关矩阵称为系数相关矩阵称为系数相关矩阵称为系数相关矩阵 由此可得经验回归方程:由此可得经验回归方程:由此可得经验回归方程:由此可得经验回归方程:(1.16)(1.16)然后以变换关系式代入可得然后以变换关系式代入可得然后以变换关系式代入可得然后以变换关系式代入可得 将将将将(17)(17)式与式与式与式与(13)(13)式进行比较,可得:式进
13、行比较,可得:式进行比较,可得:式进行比较,可得:(1.18)(1.18)只要算得只要算得只要算得只要算得(16)(16)式的式的式的式的 即可。注意到即可。注意到即可。注意到即可。注意到 其中其中其中其中 是对于因子是对于因子是对于因子是对于因子 的偏回归平方和,可以证明线性的偏回归平方和,可以证明线性的偏回归平方和,可以证明线性的偏回归平方和,可以证明线性方程中对变量方程中对变量方程中对变量方程中对变量 的多元线性回归方程中的多元线性回归方程中的多元线性回归方程中的多元线性回归方程中 的偏回归的偏回归的偏回归的偏回归平方和为(平方和为(平方和为(平方和为(是原方程中的偏回归平方和):是原方
14、程中的偏回归平方和):是原方程中的偏回归平方和):是原方程中的偏回归平方和):把系数矩阵把系数矩阵把系数矩阵把系数矩阵R R变成加边矩阵,记为变成加边矩阵,记为变成加边矩阵,记为变成加边矩阵,记为比较比较比较比较 ,设设设设 ,则相应变量则相应变量则相应变量则相应变量 作用作用作用作用最大,但是否显著大,要进行显著性检验,可以证最大,但是否显著大,要进行显著性检验,可以证最大,但是否显著大,要进行显著性检验,可以证最大,但是否显著大,要进行显著性检验,可以证得得得得当当当当 时,可将变量时,可将变量时,可将变量时,可将变量 引入方程中去。引入方程中去。引入方程中去。引入方程中去。现将这个循环步
15、骤介绍如下:现将这个循环步骤介绍如下:现将这个循环步骤介绍如下:现将这个循环步骤介绍如下:第一步:挑选第一个因子第一步:挑选第一个因子第一步:挑选第一个因子第一步:挑选第一个因子1.对对对对 计算计算计算计算 的偏回归和的偏回归和的偏回归和的偏回归和 2.找出找出找出找出 决定决定决定决定3.F F检验检验检验检验 当当当当 时引入时引入时引入时引入 ,一般总可以引入的。,一般总可以引入的。,一般总可以引入的。,一般总可以引入的。第二步:挑选第二个因子第二步:挑选第二个因子第二步:挑选第二个因子第二步:挑选第二个因子首先变换加边矩阵首先变换加边矩阵首先变换加边矩阵首先变换加边矩阵 则则则则 ,
16、因子因子因子因子 的偏回归平方和的偏回归平方和的偏回归平方和的偏回归平方和 记记记记 决定可否引入决定可否引入决定可否引入决定可否引入 步骤:步骤:步骤:步骤:1.1.对对对对 ,计算,计算,计算,计算 的偏回归平方的偏回归平方的偏回归平方的偏回归平方 和和和和 。2.2.找找找找 出中最大的一个,记为出中最大的一个,记为出中最大的一个,记为出中最大的一个,记为 。3.3.对对对对 作显著性检验:作显著性检验:作显著性检验:作显著性检验:当当当当 时,要时,要时,要时,要 引入引入引入引入 。第三步:当引入第三步:当引入第三步:当引入第三步:当引入 时,时,时,时,是否要剔除呢是否要剔除呢是否
17、要剔除呢是否要剔除呢?即已有方程:即已有方程:即已有方程:即已有方程:检验检验检验检验 的偏回归平方和:的偏回归平方和:的偏回归平方和:的偏回归平方和:当当当当 时因子时因子时因子时因子 不剔除。同样的方法以不剔除。同样的方法以不剔除。同样的方法以不剔除。同样的方法以 时因子时因子时因子时因子 不剔除。不剔除。不剔除。不剔除。第四步:重复进行第二步到第三步。一直到没第四步:重复进行第二步到第三步。一直到没第四步:重复进行第二步到第三步。一直到没第四步:重复进行第二步到第三步。一直到没有可引入的新因子,也没有可剔除的因子。有可引入的新因子,也没有可剔除的因子。有可引入的新因子,也没有可剔除的因子
18、。有可引入的新因子,也没有可剔除的因子。最后方程为:最后方程为:最后方程为:最后方程为:(1.19)(1.19)并把并把并把并把(1.19)(1.19)式换算成类似的式换算成类似的式换算成类似的式换算成类似的(1.13)(1.13)式。式。式。式。3.2 主成份分析与相关分析主成份分析与相关分析一、数学模型一、数学模型二、主成份分析二、主成份分析三、主成份的贡献率三、主成份的贡献率这是一个将多个指标化为几个少数指标进行统计分析这是一个将多个指标化为几个少数指标进行统计分析这是一个将多个指标化为几个少数指标进行统计分析这是一个将多个指标化为几个少数指标进行统计分析的问题,设有的问题,设有的问题,
19、设有的问题,设有 维总体有维总体有维总体有维总体有 个随机指标构成一个个随机指标构成一个个随机指标构成一个个随机指标构成一个 维随机向量维随机向量维随机向量维随机向量 ,它的一个实现,它的一个实现,它的一个实现,它的一个实现为为为为 ;而且这个;而且这个;而且这个;而且这个 指标之间往指标之间往指标之间往指标之间往往相往相往相往相 互有影响,是否可以将它们综合成少数几个指互有影响,是否可以将它们综合成少数几个指互有影响,是否可以将它们综合成少数几个指互有影响,是否可以将它们综合成少数几个指标标标标 ,使它们尽可能充分反映原,使它们尽可能充分反映原,使它们尽可能充分反映原,使它们尽可能充分反映原
20、来的来的来的来的 个指标。个指标。个指标。个指标。例如加工上衣,有袖长、身长、胸围、肩宽、领围、例如加工上衣,有袖长、身长、胸围、肩宽、领围、例如加工上衣,有袖长、身长、胸围、肩宽、领围、例如加工上衣,有袖长、身长、胸围、肩宽、领围、袖口、袖深,袖口、袖深,袖口、袖深,袖口、袖深,等指标,是否可以找出主要几个等指标,是否可以找出主要几个等指标,是否可以找出主要几个等指标,是否可以找出主要几个指标,加工出来就可以了呢?例如主要以衣长、胸指标,加工出来就可以了呢?例如主要以衣长、胸指标,加工出来就可以了呢?例如主要以衣长、胸指标,加工出来就可以了呢?例如主要以衣长、胸宽、型号宽、型号宽、型号宽、型
21、号(肥瘦肥瘦肥瘦肥瘦)这样三个特征。这样三个特征。这样三个特征。这样三个特征。一、数学模型一、数学模型设设设设 为为为为 维随机向量,维随机向量,维随机向量,维随机向量,为为为为期望向量期望向量期望向量期望向量,为协方差矩阵,其中为协方差矩阵,其中为协方差矩阵,其中为协方差矩阵,其中 设将设将设将设将 综合成很少几个综合性指标,综合成很少几个综合性指标,综合成很少几个综合性指标,综合成很少几个综合性指标,如如如如 ,不妨设,不妨设,不妨设,不妨设 则有则有则有则有 要使要使要使要使 尽可能反映原来的指标的作用,则要使尽可能反映原来的指标的作用,则要使尽可能反映原来的指标的作用,则要使尽可能反映
22、原来的指标的作用,则要使 尽可能大,可以利用尽可能大,可以利用尽可能大,可以利用尽可能大,可以利用 乘子法乘子法乘子法乘子法:要对要对要对要对a a加以限制加以限制加以限制加以限制 否则加大否则加大否则加大否则加大 ,增大无意义。令增大无意义。令增大无意义。令增大无意义。令 设设设设 并使并使并使并使 可得方程组可得方程组可得方程组可得方程组(2.1)(2.1)的解为的解为的解为的解为 (2.2)(2.2)以以以以 左乘左乘左乘左乘(2.2)(2.2)之两边,得之两边,得之两边,得之两边,得 即即即即 由由由由(2.2)(2.2)式可得式可得式可得式可得 (2.3)(2.3)要使满足要使满足要
23、使满足要使满足(2.3)(2.3)的的的的a a非零,应有非零,应有非零,应有非零,应有 即入是即入是即入是即入是 的特征根,设的特征根,设的特征根,设的特征根,设 是是是是 的的的的 个特征根,只要取个特征根,只要取个特征根,只要取个特征根,只要取 ,再由再由再由再由 ,求出,求出,求出,求出V V的属于的属于的属于的属于 的特征向量的特征向量的特征向量的特征向量 ,在条件在条件在条件在条件 是唯一的是唯一的是唯一的是唯一的 维特征向量维特征向量维特征向量维特征向量 。于是得于是得于是得于是得 (2.4)(2.4)二、主成份分析二、主成份分析 一般协方差方阵为非负定,对角线上各阶主子式都一般
24、协方差方阵为非负定,对角线上各阶主子式都一般协方差方阵为非负定,对角线上各阶主子式都一般协方差方阵为非负定,对角线上各阶主子式都大于等于零,即特征值有:大于等于零,即特征值有:大于等于零,即特征值有:大于等于零,即特征值有:设前设前设前设前mm个都大于零,依次为个都大于零,依次为个都大于零,依次为个都大于零,依次为 ,相应的特征向量为相应的特征向量为相应的特征向量为相应的特征向量为 ,则,则,则,则,即为第一,即为第一,即为第一,即为第一,第二第二第二第二,第第第第 个主成份,由线性代个主成份,由线性代个主成份,由线性代个主成份,由线性代数知识可知,不同的特征根对应的不同的特征向量数知识可知,
25、不同的特征根对应的不同的特征向量数知识可知,不同的特征根对应的不同的特征向量数知识可知,不同的特征根对应的不同的特征向量线性无关,由于线性无关,由于线性无关,由于线性无关,由于V V是实对称阵,则是实对称阵,则是实对称阵,则是实对称阵,则 ,变换后的各主成份,变换后的各主成份,变换后的各主成份,变换后的各主成份 相互无关。即对相互无关。即对相互无关。即对相互无关。即对 进行了一次正交变换。进行了一次正交变换。进行了一次正交变换。进行了一次正交变换。在实际应用中,在实际应用中,在实际应用中,在实际应用中,V V阵往往是未知的,需要用阵往往是未知的,需要用阵往往是未知的,需要用阵往往是未知的,需要
26、用V V的估的估的估的估计计计计 值来代替值来代替值来代替值来代替 ,设有,设有,设有,设有 组观测值组观测值组观测值组观测值 则取则取则取则取 (2.5)(2.5)(2.6)(2.6)其中其中其中其中 是是是是 的的的的 子样方差,子样方差,子样方差,子样方差,的子样协的子样协的子样协的子样协方差。需要求出方差。需要求出方差。需要求出方差。需要求出 的特征值。的特征值。的特征值。的特征值。由于不同的度量会产生量纲问题,一般建议作如下由于不同的度量会产生量纲问题,一般建议作如下由于不同的度量会产生量纲问题,一般建议作如下由于不同的度量会产生量纲问题,一般建议作如下变换:变换:变换:变换:用标准
27、变量用标准变量用标准变量用标准变量 代替以代替以代替以代替以 前的前的前的前的 ,即可以运算。此时的协方差矩阵即相关,即可以运算。此时的协方差矩阵即相关,即可以运算。此时的协方差矩阵即相关,即可以运算。此时的协方差矩阵即相关矩阵矩阵矩阵矩阵 从从从从R R出发,可求主成份。出发,可求主成份。出发,可求主成份。出发,可求主成份。三、主成份的贡献率三、主成份的贡献率为了尽可能以少数几个主成份为了尽可能以少数几个主成份为了尽可能以少数几个主成份为了尽可能以少数几个主成份 来来来来代替代替代替代替P P个指标个指标个指标个指标 ,那么要决定取,那么要决定取,那么要决定取,那么要决定取多少个主成份才够呢
28、多少个主成份才够呢多少个主成份才够呢多少个主成份才够呢 由于由于由于由于 则可得则可得则可得则可得 是是是是 的方差,的方差,的方差,的方差,可得可得可得可得 亦是亦是亦是亦是V V的全部特征值之和:的全部特征值之和:的全部特征值之和:的全部特征值之和:由于由于由于由于 ,则令则令则令则令 表明方差表明方差表明方差表明方差 在全部在全部在全部在全部 方差中所占的比重,称方差中所占的比重,称方差中所占的比重,称方差中所占的比重,称 是是是是第第第第i i个主成份的贡献率,显然有个主成份的贡献率,显然有个主成份的贡献率,显然有个主成份的贡献率,显然有 ,不不不不妨取一个阈值为妨取一个阈值为妨取一个
29、阈值为妨取一个阈值为d(0d(0d d1)1),当,当,当,当 时,即舍时,即舍时,即舍时,即舍去,此时可取去,此时可取去,此时可取去,此时可取 为主成份。以贡为主成份。以贡为主成份。以贡为主成份。以贡献率来决定它的个数。献率来决定它的个数。献率来决定它的个数。献率来决定它的个数。一、数学模型一、数学模型二、关于计算中应注意的问题二、关于计算中应注意的问题三、关于误判率及多个总体的判别三、关于误判率及多个总体的判别3.3 判别分析判别分析一、数学模型一、数学模型 根据所研究的个体的观察指标来推断个体所属于何种根据所研究的个体的观察指标来推断个体所属于何种类型的一种统计分析方法,称为判别分析。类
30、型的一种统计分析方法,称为判别分析。例如某精神病院有精神病患者例如某精神病院有精神病患者256名,诊断结果将它名,诊断结果将它们分成六类们分成六类 (相当于相当于6个总体个总体)设设 服从服从三维联合正态分布三维联合正态分布 i=1,2,6,其中,其中,为协方差矩阵,一般这六种类型可分为为协方差矩阵,一般这六种类型可分为焦虑状、癔病、精神病、强迫观念型、变态人格、正焦虑状、癔病、精神病、强迫观念型、变态人格、正常,若有如下子样:常,若有如下子样:子样子样 子样子样 子样子样注意到每个子样注意到每个子样 都是三都是三维维向量。向量。现现有一个新的有一个新的精神病患者前来就医,精神病患者前来就医,
31、测测得三个指得三个指标标:试判断该患者病情属于哪一类。试判断该患者病情属于哪一类。(一一)两两点的距点的距离离设设 维维空空间间中有两点中有两点 ,则其欧氏距离为则其欧氏距离为:(3.1)由于数据的量由于数据的量纲纲不同,不采用欧氏距离不同,不采用欧氏距离,用用马马氏氏距离有:距离有:定定义义1 1:设设X,YX,Y是从是从总总体体G G中抽取的中抽取的样样品品,G,G服从服从P P维维正正态态分布,分布,,定定义义X,Y两两点点间间的距离的距离为马为马氏距氏距离:离:(3.2)定义定义2:X与总体与总体G的距离为的距离为D(X,G)为为(3.3)(二二)距离判距离判别别法法 设设有两个有两个
32、协协方差相同的正方差相同的正态总态总体体 ,且,且对于一个新的样品,要判定它来自哪一个总体,对于一个新的样品,要判定它来自哪一个总体,有一个很直观的方法:有一个很直观的方法:计算计算 若若(三三)线线性判性判别别函函数数 由由 令令 记记 则则有:当有:当 时,时,否则否则 当当 为为已知已知时时,令,令,可得:可得:(3.4)称称 为线为线性判性判别别函数,函数,a a为为判判别别系数系数,因因为为,即,即,解解线线性方程性方程组组可得解可得解此时的判别规则为:此时的判别规则为:X是新的一是新的一个个点点,将将其代入即可判其代入即可判别别。(3.5)二、关于计算中应注意的问题二、关于计算中应
33、注意的问题 实际实际上上均未知均未知,要用要用样样本本值值的估的估计计公式来公式来计计算出算出。其方法如下。其方法如下:设设子子样样来自来自总总体体,子子样样来自来自,可由可由(在本在本节节的的开开头头的例子中的例子中P=3)得到得到(3.6)(3.7)判别函数为判别函数为(3.8)判别系数为判别系数为三、关于误判率及多个总体的判别三、关于误判率及多个总体的判别这里提及一个回报的误判率问题。在构造判别函数这里提及一个回报的误判率问题。在构造判别函数W(X)时时,是依据样本是依据样本,现现在已在已知知 均属于均属于,从从道理上道理上来来说说,经过判别公式经过判别公式(3.8),可得可得出出,但也
34、可能出但也可能出来来某几某几个个不不属属于于,这这便是误判。若有便是误判。若有 存在存在,使得使得,说说明明 这这就就产产生了一生了一个个误误判。所判。所谓误谓误判率判率,即是出即是出现误现误判的判的百分百分数数,我我们应该们应该有所控制。有所控制。当两个总体的协方差不相等时当两个总体的协方差不相等时,可用如下方法可用如下方法:(3.9)(3.10)当当 当当 未知时未知时,用下列估计代替用下列估计代替:在在个个总总体体时时,均,均值为值为协协方差方差阵为阵为(维维)设设 都已知时都已知时,X为样品为样品 计算计算 选择一个选择一个最小的值例如最小的值例如 则则 设设未知未知,但独立,可以分但
35、独立,可以分别别以估以估计值计值来来计计算。算。当上述当上述 未知未知,但但亦可以用上述亦可以用上述类类似方法。似方法。上述解决方法中,可以上述解决方法中,可以扩扩展到非正展到非正态态分布。分布。时,时,3.4 聚类分析聚类分析 物以类聚,人以群分,社会发展和科技的进步物以类聚,人以群分,社会发展和科技的进步都要求对于某些物体进行分类。由于早期的定性都要求对于某些物体进行分类。由于早期的定性分类已不能满足需要,于是数值分类学便应运而分类已不能满足需要,于是数值分类学便应运而生。生。一、数学模型一、数学模型二、应用类例二、应用类例一、数学模型一、数学模型某种物品有某种物品有n个:个:指标,如何将
36、其分成若干类,基本的思路是把距离指标,如何将其分成若干类,基本的思路是把距离较近的点归成一类。这里的距离可分为如下三类:较近的点归成一类。这里的距离可分为如下三类:它有它有m个数值量化个数值量化1.距离距离 的距离的距离,本文中的距离常用欧氏或马氏距离,公式在前几节本文中的距离常用欧氏或马氏距离,公式在前几节中已述,还有一种用绝对距离:中已述,还有一种用绝对距离:应该应该提及提及马马氏距离氏距离可以克服数据相关性的困可以克服数据相关性的困难难。2.数数据正据正规规化化处处理理 当当的分量中的分量中大大,要,要经过经过正正规规化化标标准化准化处处理,令理,令 个指标量纲不一致时,相差很个指标量纲
37、不一致时,相差很(4.1)其中其中(4.2)(4.3)将将经过经过(1)(1)式式处处理的数据理的数据重新重新视视作作(为记为记号上的号上的方便方便)3.相似系相似系数数法法 的相关系数的相关系数(4.4)可以将相关愈密切的归成一类。可以将相关愈密切的归成一类。4.最短距离聚类法最短距离聚类法(系统聚类法,系统聚类法,逐步并类法逐步并类法)先将先将n个样本各自为一类,计算它们之间的距个样本各自为一类,计算它们之间的距离,选择距离小的二个样本归为一个新类,再计算离,选择距离小的二个样本归为一个新类,再计算这个新类与其它样本的距离,选择距离小的二个样这个新类与其它样本的距离,选择距离小的二个样本本
38、(或二个新类或二个新类)归为一个新类,每次合并缩小一个归为一个新类,每次合并缩小一个以上的类,直到所有样本都划为一个类为止。以上的类,直到所有样本都划为一个类为止。这里规定两点间距离为:这里规定两点间距离为:两类间的距离,即两类间的距离,即 的距离为:的距离为:步骤如下:步骤如下:1.数据正规化处理数据正规化处理 要视各指标的量纲是否一致,相差是否太大,要视各指标的量纲是否一致,相差是否太大,并选择一种距离计算法,为了方便计,一般都选并选择一种距离计算法,为了方便计,一般都选择欧氏距离法。择欧氏距离法。2.计算各样本间的两两距离计算各样本间的两两距离,并记在分类距离并记在分类距离对称表中对称表
39、中,并记为并记为D(0),第第0步分类步分类,此时此时(每一每一个个样样本点本点为为一一个个类类)3.选择选择表表D(0)中的最短距离中的最短距离,设为设为,则则将将 合并成一个新类合并成一个新类,记为记为(4.5)4.4.计计算新算新类类与其它与其它类类之之间间的距离的距离,定定义义(4.6)表示新表示新类类与与类类之之间间的距离。的距离。5.作作D(1)表表,将将D(0)中的第中的第p,q行和行和p,q列列删删去去,加上第加上第r行行,第第r列。第列。第r行行,第第r列列与与其其它它类类的距离按的距离按(4.6)式判式判断断后后记记上上,这样这样得到一得到一个个新的分新的分类类距离距离对对
40、称称表表,并并 记为记为D(1),D(1)表示表示经过经过一次聚一次聚类类后的距离后的距离表表,要注意的是要注意的是Dr类类是由是由哪两哪两类类聚聚类类得到得到应应在在D(1)表表下下给给以以说说明。明。6.对对D(1)按按3,4,5重复类似重复类似D(0)的聚类工作的聚类工作,得得D(2)。7.一直重复一直重复,直到最后只剩下两类为止直到最后只剩下两类为止,并作聚并作聚类图。类图。二、应用类例二、应用类例 现有现有8个样品个样品,每个样品有每个样品有2个指标个指标(m=2,2维变维变量量),它们的量纲相同它们的量纲相同,(否则要经过正规化处理否则要经过正规化处理)编编编编号号号号1 1 1
41、12 2 2 23 3 3 34 4 4 45 5 5 56 6 6 67 7 7 78 8 8 82 2 2 22 2 2 24 4 4 44 4 4 4-4-4-4-4-2-2-2-2-3-3-3-3-1-1-1-15 5 5 53 3 3 34 4 4 43 3 3 33 3 3 32 2 2 22 2 2 2-3-3-3-3试用系统聚类方法对这试用系统聚类方法对这8个样品进行聚类。个样品进行聚类。解解:采用欧氏距离采用欧氏距离 (1)最短距离法最短距离法,首先用表格形式列出首先用表格形式列出D(0)D(0)D(0)D(0)D(0)G1G1G1G1G2G2G2G2G3G3G3G3G4G4
42、G4G4G5G5G5G5G6G6G6G6G7G7G7G7G8G8G8G8G1G1G1G10 0 0 0G2G2G2G22.02.02.02.00 0 0 0G3G3G3G32.22.22.22.22.22.22.22.20 0 0 0G4G4G4G42.32.32.32.32.02.02.02.01.01.01.01.00 0 0 0G5G5G5G56.36.36.36.36.06.06.06.08.18.18.18.18.08.08.08.00 0 0 0G6G6G6G65.05.05.05.04.14.14.14.16.36.36.36.36.16.16.16.12.22.22.22.20
43、 0 0 0G7G7G7G75.85.85.85.85.15.15.15.17.27.27.27.27.17.17.17.11.41.41.41.41.01.01.01.00 0 0 0G8G8G8G88.58.58.58.56.76.76.76.78.68.68.68.67.87.87.87.86.76.76.76.75.15.15.15.15.45.45.45.40 0 0 0表示第表示第i个样品个样品,i=1,2,8 在在D(0)D(0)中中,最小最小值值是是1.0,1.0,相相应应的距离是的距离是D(3.4),D(3.4),与与D(6,7)D(6,7)。则则合并合并为为新新类类,把把合
44、并成合并成。(2)把把D(0)中去掉中去掉 并计算得下表并计算得下表,后两行重算后两行重算,其余照其余照D(0)照抄。照抄。D(1)D(1)D(1)D(1)G1G1G1G1G2G2G2G2G5G5G5G5G8G8G8G8G9G9G9G9G11G11G11G11G1G1G1G10 0 0 0G2G2G2G22.02.02.02.00 0 0 0G5G5G5G56.36.36.36.36.06.06.06.00 0 0 0G8G8G8G88.58.58.58.56.76.76.76.76.76.76.76.70 0 0 0G9G9G9G92.22.22.22.22.02.02.02.08.08.0
45、8.08.07.87.87.87.80 0 0 0G10G10G10G105.05.05.05.04.14.14.14.11.41.41.41.45.15.15.15.18.18.18.18.10 0 0 0视视D(1)D(1)中中,最小最小值为值为1.4,1.4,相相应应的是的是D(5,10)D(5,10)将将合并成新合并成新类类。3)同法同法构构造造D(2)表表D(2)D(2)D(2)D(2)G1G1G1G1G2G2G2G2G8G8G8G8G9G9G9G9G10G10G10G10G1G1G1G10 0 0 0G2G2G2G22.02.02.02.00 0 0 0G8G8G8G88.58.5
46、8.58.56.76.76.76.70 0 0 0G9G9G9G92.22.22.22.22.02.02.02.07.87.87.87.80 0 0 0G11G11G11G115.05.05.05.04.14.14.14.15.15.15.15.16.16.16.16.10 0 0 0其中其中最小最小值值D(1,2)=D(2,9)=2.0D(1,2)=D(2,9)=2.0,则则把把,在,在D(2)中中,D(3)D(3)D(3)D(3)G8G8G8G8G11G11G11G11G12G12G12G12G8G8G8G80 0 0 0G11G11G11G115.15.15.15.10 0 0 0G12
47、G12G12G126.76.76.76.74.14.14.14.10 0 0 0 其中其中D(3)D(3)中中,最小最小值值D(11,12)=4.1D(11,12)=4.1,因此把因此把,在,在D(4)D(4)D(4)D(4)G8G8G8G8G13G13G13G13G8G8G8G80 0 0 0G13G13G13G135.15.15.15.10 0 0 0(见见D(0)第第8行行)3.3.把上述聚把上述聚类过类过程用聚程用聚类图类图表示表示:0 1 1.4 2 T 3 4 5 说说明:聚明:聚类类到一定程度即可到一定程度即可结结束束一般可以选取一个阈值一般可以选取一个阈值T,到,到D(K)中的
48、所有非零元素中的所有非零元素都大于都大于T,即结束,即结束(表中的值表中的值T值值)设设T=2.5:则:则到到D(3)时结束,此时的共聚为三类:时结束,此时的共聚为三类:如下图:如下图:85761 32 43.5 模糊聚类分析模糊聚类分析二、数学模型二、数学模型一、问题的提出一、问题的提出三、一个实例三、一个实例一、问题的提出一、问题的提出客观事物分成确定性和不确定性两类客观事物分成确定性和不确定性两类,处理不确定性的处理不确定性的方法为随机数学方法。在进行随机现象的研究时方法为随机数学方法。在进行随机现象的研究时,所表所表现的现象是不确定的现的现象是不确定的,但对象事物本身是确定的。例如但对
49、象事物本身是确定的。例如投一个分币投一个分币,出现哪一面是随机的出现哪一面是随机的,但分币本身是确定的。但分币本身是确定的。如果所研究的事物本身是不确定的如果所研究的事物本身是不确定的,这就是模糊数学所这就是模糊数学所研究的范畴。研究的范畴。例如例如,一个人年龄大了一个人年龄大了,称年老称年老,年小年小,或年青或年青,但到底但到底什么算年老什么算年老,什么算年青呢什么算年青呢?又如儿子象父亲又如儿子象父亲,什么是象什么是象?象多少象多少?再说儿子象父亲再说儿子象父亲,儿子又象母亲儿子又象母亲(部分象部分象),难道父亲象难道父亲象母亲母亲?1965年由提出模糊数学年由提出模糊数学,它可以广泛地应
50、于图象识别它可以广泛地应于图象识别,聚类分析聚类分析,计算机应用和社会科学。计算机应用和社会科学。例如洗衣机和空调器已用上模糊控制例如洗衣机和空调器已用上模糊控制,本节将把模糊数学的一套方法引入聚本节将把模糊数学的一套方法引入聚类分析中来类分析中来,称为模糊聚类分析。称为模糊聚类分析。二、数学模型二、数学模型设设设设E E为分明集为分明集为分明集为分明集(集合集合集合集合)1.1.定义定义定义定义:称为隶属度函数称为隶属度函数称为隶属度函数称为隶属度函数(分得很清楚分得很清楚分得很清楚分得很清楚)要末是要末是要末是要末是,要末要末要末要末不是对不是对不是对不是对A A为不分明集为不分明集为不分