《模式识别与分类精选PPT.ppt》由会员分享,可在线阅读,更多相关《模式识别与分类精选PPT.ppt(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、模式识别与分类第1页,此课件共39页哦模式识别与分类导言 Clustering/Classification 统称 如下问题 人眼识别物 中医看舌苔/脉搏 图谱辨别化合物 低维与高维数据 一次观察的矢量表示n为空间维数,变量数变量即特征各特征类型/量纲/大小相差大第2页,此课件共39页哦模式识别与分类数据预处理 值域调整range scaling 自标度化 Autoscaling均值0方差1模长第3页,此课件共39页哦模式识别与分类数据预处理 标准化 Normalization模长为1色谱面积归1质谱最大为1第4页,此课件共39页哦模式识别与分类数据预处理 变换法原变量相加/减/除等 组合法第
2、5页,此课件共39页哦模式识别与分类数据预处理 特征的选择偏差权重法s大的变量更重要Fisher比率法F大的变量更重要第6页,此课件共39页哦模式识别与分类数据预处理协方差矩阵C与相关矩阵R对于n为对象数,p为特征数方差j=1,p 协方差j,k=1,p;jk 第7页,此课件共39页哦模式识别与分类数据预处理方差-协方差矩阵,简称协方差矩阵如下:对称矩阵第8页,此课件共39页哦模式识别与分类数据预处理相关矩阵如下:其中但对于Autoscaling后的数据,s=1。C即为R。第9页,此课件共39页哦模式识别与分类主成分分析PCA因子分析FA聚类分析clustering无监督方法第10页,此课件共3
3、9页哦模式识别与分类PCA得分score载荷loading d为主成分数 第11页,此课件共39页哦模式识别与分类PCA投影判别法 数据重构组成互不相关的新变量 取较少的主成分数(常为2),完成分类第12页,此课件共39页哦模式识别与分类PCA实例1 不同嫌疑人头发中元素的含量(g/g)样品CuMnClBrI19.20.30 173012.0 3.6 212.40.39 93050.0 2.3 37.20.32 275065.3 3.4 410.20.36 15003.4 5.3 510.10.50 104039.2 1.9 66.50.20 249090.0 4.6 75.60.29 294
4、088.0 5.6 811.80.42 86743.1 1.5 98.50.25 16205.2 6.2 原始数据原始数据X(95)autoscaling计计算算相关矩相关矩阵阵计计算算特征特征值值返回第13页,此课件共39页哦模式识别与分类方差百分数主成分数的确定指定 ,如90%相应的dPCA实例1 头发样品中的特征值与方差 成分数 特征值 方差%累计方差%1 3.352 67.05 67.05 2 1.182 23.65 90.70 3 0.285 5.70 96.40 4 0.135 2.70 99.10 5 0.045 0.90 100.00特征值1对于相关矩阵,1的成分为主成分Scr
5、ee检验nPC在2-3间斜率下降 因此d=2合适第14页,此课件共39页哦模式识别与分类得分图主成分图形解释PCA实例13个聚类分属三人t1对t2作图t1最重要第15页,此课件共39页哦模式识别与分类主成分图形解释PCA实例1载荷图l1对l2作图特征在主成分上的投影各变量的相关信息夹角越小,相关性越高高度相关的特征取1即可载荷大小是重要性的度量位于原点的载荷不重要金属间的相关性大于卤素间的Cu与Cl反性相关l1最重要,距原点距离越大,该特征权重越大,Cu第16页,此课件共39页哦模式识别与分类主成分图形解释PCA实例1 相似系数或相关系数表 CuCu 1.000 MnMn 0.697 1.00
6、0 ClCl -0.950 -0.692 1.000 BrBr -0.530 -0.233 0.588 1.000 I -0.645 -0.749 0.581 -0.084 相似系数相关系数Br/I接近正交Cu/Cl负相关1:完全相同0:完全正交自标度化的数据cos=r第17页,此课件共39页哦模式识别与分类得分图主成分图形解释PCA实例1特征的选择5个全取取Cu/Br/I仍能分类效果略差取Cu/Mn/Cl分类效果差l2无效果3个,仅1个12.57,0.38,0.05一维投影结果原始数据第18页,此课件共39页哦模式识别与分类主成分图形解释PCA实例1双重图biplott1各元素均有贡献t2由
7、Br和I表征Cu/Mn/Cl/I将对象聚为2组Br将对象聚为另2组第19页,此课件共39页哦模式识别与分类PCA实例1应用示例应用示例烟叶硅烟叶硅烷烷化色化色谱谱 辽宁凤城烟叶不同部位辽宁凤城烟叶不同部位烟叶的区分烟叶的区分下部上部中部第20页,此课件共39页哦模式识别与分类FA 用少数几个通用因子描述矩阵中的特征 抽象因子需经旋转变换成实因子TTFA包含d个因子的特征参数,各因子对应1个起因与对应因子相关的载荷分数由剩余p-d个和通用因子无关的特殊因子构成,如噪声因子第21页,此课件共39页哦模式识别与分类FA目标转换因子分析Target Transformation FA变换矩阵抽象载荷目
8、标预测目标均值相对偏差relative deviation估计两者的一致性第22页,此课件共39页哦模式识别与分类FA实例TTFA多环芳烃HPLC-DAD数据有3个重要因子第23页,此课件共39页哦模式识别与分类多环芳烃HPLC-DAD数据FA实例TTFA已知4物的纯光谱但仅3个主因子F补一列第24页,此课件共39页哦模式识别与分类多环芳烃HPLC-DAD数据FA实例TTFA283.331545.91126.4-58.497102.72120.36217.71172.223.665-106.13-223.13-169.66-63.573-628.81-435.2476.663111.23112
9、.88282.74274.6138.03685.85873.30428.34552.66370.73415.276-24.929110.5432.7193.991310.64514.72625.2127.38911.377存在不存在第25页,此课件共39页哦模式识别与分类聚类分析 无监督学习方法 根据相似性度量,物以类聚 分类方法是把未知对象分配到已存在类中聚类分析步骤n个个样样本本n类类计计算距离算距离最近最近的的2类类合并合并 继续继续合并合并最近的最近的2类类经经n-1次合并次合并最后成最后成1类类第26页,此课件共39页哦模式识别与分类聚类分析距离与相似性度量的方法明氏Minkowsk
10、i距离欧氏Euclidean距离曼哈顿Manhattan距离city-block距离第27页,此课件共39页哦模式识别与分类聚类分析距离与相似性度量的方法马氏Mahalanobis距离基于协方差矩阵C的向量运算基于马氏距离的相似性量度完全相似 Sij=1完全不相似 Sij=0马氏距离可避免特征向量的相关性引起的失真无需对数据进行调整第28页,此课件共39页哦模式识别与分类聚类分析实例6个血清样本的分级聚类对象1、2距离最短,聚为新对象1*设其距离为0与其余各对象用平均法或新距离第29页,此课件共39页哦模式识别与分类聚类分析实例6个血清样本的分级聚类4,6并并4*4*,5并5*1*,3并3*第
11、30页,此课件共39页哦模式识别与分类聚类分析实例6个血清样本的分级聚类1231234651*3*4*5*欧氏距离6个血清样本实际上可分为两类第31页,此课件共39页哦模式识别与分类聚类分析A、B聚后新距离的算法加权均连weighted average linkage单连法(最近距离)single linkage全连法(最远距离)complete linkage其他方法第32页,此课件共39页哦模式识别与分类线性学习机LLMK最近邻法KFASIMCA法有监督方法第33页,此课件共39页哦模式识别与分类LLM11111111122222222判别面以分类(疾病判断)为例存在一判别面,用垂直的法线
12、(权)矢量w表示 与类1中任一样本矢量的夹角 ,与类2中 线性判别函数s(标量),s0 ,s0第34页,此课件共39页哦模式识别与分类LLM步骤已知样本作训练得法线矢量w未知样本计算s并预测分类初值w,可随机确定第第1个已知个已知样样本本计计算算s 不符下一个下一个样样本本计计算算s继续调整w 第35页,此课件共39页哦模式识别与分类LLM实例数据初值第36页,此课件共39页哦模式识别与分类LLM实例修正w不修正须修正以后还需修正1次,最终判别第37页,此课件共39页哦模式识别与分类LLM实例程序clear;close all;Y=load(E:bkjshxjiazx.txt);Y(:,1)=
13、;n,p=size(Y);cluster=Y(:,p);cluster=cluster*(-2)+3*ones(n,1);%let symbol of first cluster=1 and second cluster=-1Y(:,p)=;Y_std=Y(1:16,:);clu_std=cluster(1:16,:);Y_unk=Y(17:20,:);clu_unk=cluster(17:20,:);n_std,p=size(Y_std);n_unk,p=size(Y_unk);Part I 数据准备w=ones(1,p)*(-1);%给初值,w设为行矢量 for i=1:n_std s=w
14、*Y_std(i,:);%s 是标量 if s*clu_std(i,1)0 c=(-2)*s/(Y_std(i,:)*Y_std(i,:);w=w+c*Y_std(i,:);endendPart II 训练确定wfor i=1:n_unk s=w*Y_unk(i,:);fprintf(For unknown sample No.:%3.0ft,i);if s*clu_unk(i,1)0 fprintf(the judgement is WRONG.n);else fprintf(the judgement is RIGHT.n);endendPart III 判断未知样本llm.m初值不同,w也不同第38页,此课件共39页哦作业1重现TTFA法对PAH的HPLC-DAD数据进行是否存在的判断。作业220个香烟理化指标的测定数据,前10个样本为双喜,后10个为中华。1.用PCA对样本分类,并评价各指标的重要性及相关性。2.用LLM方法计算法向量,并对部分样本进行预报。E:bkjshxdataYancao.xls第39页,此课件共39页哦