《主成分分析与主成分回归PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《主成分分析与主成分回归PPT讲稿.ppt(48页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、主成分分析与主成分回归主成分分析与主成分回归第1页,共48页,编辑于2022年,星期三1.Introduction1.1 Chemometrics1.2 Necessary KnowledgeNecessary Knowledge第2页,共48页,编辑于2022年,星期三1.1 Chemometrics1.1.1.1970S发展1.1.2.交叉学科1.1.3.现代仪器1.1.4.一个例子1971:瑞典人S.Wold 基金项目定名时首提1974:S.Wold 何B.R.Kowalski 倡议在西雅图首开学术会议 新创学术刊物 J.Chem.Info.Comp.Sci.J.Chemometrics
2、 Chemom.Intell.Lab.Syst.化学计量学与计量关系Chemometrics Stoichiometry需要化学计量学获得更多信息BACK应用数学、统计学、与计算机科学的手段设计或优化量测方法,并通过解析数据最大限度地获取化学及相关信息。化学 分析化学数学 统计学计算机科学 接口第3页,共48页,编辑于2022年,星期三A New trend in Analytical Chemistry-Hyphenated Instrument(聯用儀器)Separation InstrumentSignalInstrumentHPLC DAD(diode-array detector)G
3、C MS(Mass-spectrometer)第4页,共48页,编辑于2022年,星期三HPLC-DADvGet more data3D chromatogramHPLC chromatogram of nuclueside of Cordyceps Sinensis(冬蟲草冬蟲草)at one wavelength第5页,共48页,编辑于2022年,星期三GC-MSGC chromatogram of peptic powder(平胃散平胃散)Mass spectrum taken at retention time 10.2 minutesBACKvvTwo-way data contai
4、ning both chromatography and spectra;vvData matrix with more than 80 Megabytes;vvData base of lots of chemical standards 第6页,共48页,编辑于2022年,星期三梁逸曾教授的经历美国标准局16组分PAH混合物标样(Sulpeco)已知峰已知峰已知峰已知峰9 9 9 9为苯并为苯并为苯并为苯并 aaaa蒽和屈,峰蒽和屈,峰蒽和屈,峰蒽和屈,峰14141414为苯并芘和二苯并蒽的二组分重叠峰为苯并芘和二苯并蒽的二组分重叠峰为苯并芘和二苯并蒽的二组分重叠峰为苯并芘和二苯并蒽的二组
5、分重叠峰BACKNext芴、苊、菲三混合第7页,共48页,编辑于2022年,星期三Peaks 5 and 6 in the plot第8页,共48页,编辑于2022年,星期三峰峰5 5、峰、峰6 6的演进特征投影图的演进特征投影图峰峰5 5的的的的前前前前5 5个特征值依次为个特征值依次为个特征值依次为个特征值依次为1638216382,24362436,12941294,2222,1111第9页,共48页,编辑于2022年,星期三分辨所得的芴芴、苊、菲、蒽的色谱与光谱、苊、菲、蒽的色谱与光谱化学学报化学学报 1998 1998,中国科学,中国科学 1998 1998,ChemLab.1999
6、ChemLab.1999BACK第10页,共48页,编辑于2022年,星期三线性代数1.2 Necessary Knowledge on Linear Algebra1.2.1 矢量Vector1.2.2 线性相关1.2.3 矩阵Matrix1.2.3 秩Rank一组溶液的光谱集合一组溶液的光谱集合一条光谱一条光谱同物质不同浓度的光谱同物质不同浓度的光谱混合溶液中的物种数混合溶液中的物种数BACK第11页,共48页,编辑于2022年,星期三矢量:矢量:n个有顺序的数a1,a2,an组成的数组。k11+k22+kmm=0线性组合:线性组合:k1+k2。就称为,的行矢量:行矢量:(a1,a2,an
7、);列矢量t。问问:由由,组成的矩阵组成的矩阵,rank最大为几?最大为几?1=(1 2 3 4 5 6)2=(6 5 4 3 2 1)3=(1 1 1 1 1 1)1+23=0第12页,共48页,编辑于2022年,星期三Grade dik received by student i from professor k is矩阵矩阵:一组相同大小的矢量组合一组相同大小的矢量组合经典例子经典例子:教授给学生打分教授给学生打分True score of student iRelative loading(importance)given by professor kj:factors(i,e.,su
8、bjects)chem.,physics,math.,etc.第13页,共48页,编辑于2022年,星期三Four students three professortwo subject:Chemistry and EnglishProfessors 1 2 3Students1234Students1234Professors 1 2 3factors 1 212Factors3教授给教授给4学生写留学推荐信学生写留学推荐信S is the matrix of true scores,called the score matrixL is the matrix of importance,c
9、alled the loading matrix得分矩阵载荷矩阵第14页,共48页,编辑于2022年,星期三矩阵的秩矩阵的秩:对于A(mn),其秩是A中 最大线性无关的行数(或列数)。秩组分数?秩组分数?秩为几?秩为几?三种组分,吸收光谱各不相同(s1,s2,s3)6组溶液,各组分浓度不同 吸光度矩阵A(206)Rank=Number of Eigenvalue秩秩=不为不为0的特征值的数目的特征值的数目矩阵矩阵:一组不同浓度组合的混合溶液测得的光谱集合一组不同浓度组合的混合溶液测得的光谱集合一组不同浓度组合的混合溶液测得的光谱集合一组不同浓度组合的混合溶液测得的光谱集合矢量矢量:一条光谱一条
10、光谱第15页,共48页,编辑于2022年,星期三Eigenvalue 特征值特征值奇异值分解法奇异值分解法:Y=USVt S:对角矩阵,收集了Y的特征值 U:标准列正交矩阵(Scores Matrix)Vt:标准行正交矩阵(Loadings Matrix)用Matlab 很方便!一句话!BACK第16页,共48页,编辑于2022年,星期三2.PCA 主成分分析 Principal Component Analysis2.1 目的目的1 12.2 基本步骤基本步骤2 22.3 应用实例应用实例3 3第17页,共48页,编辑于2022年,星期三2.1 主成分分析主成分分析(PCA)的目的的目的BA
11、CK现代仪器获得两维数据(矩阵)矩阵处理确定秩为多少确定复杂分析体系中的物种数PCA的目的-定性有几种物种species定性第18页,共48页,编辑于2022年,星期三2.2 PCA的步骤的步骤BACK矩阵分解真实误差法收集特征值特征值比值法Y=USVt在S中比较RSD与REMax第19页,共48页,编辑于2022年,星期三BACKNIPALS分解矩阵分解矩阵分解奖金10000元=10000150002100100110000Y=TP奇异值(SVD)分解Single Value DecompositionY=USVt S:对角矩阵,收集了Y的特征值 U:标准列正交矩阵(Scores Matri
12、x)Vt:标准行正交矩阵(Loadings Matrix)用Matlab 很方便!一句话!怎么分解?看了头大!分解成正交矩阵的乘积第20页,共48页,编辑于2022年,星期三Y(mn)有d个主成分真实误差法真实误差法-确定主成分数确定主成分数d+表示来自主因子0表示来误差=真实误差RE(Real Error,可以知道)RE=RSD(剩余标准偏差)Residual Standard Deviation第21页,共48页,编辑于2022年,星期三确定或设定确定或设定RE d=1n-1计算计算RSD(d)d=1 RSD(d)REYES此时此时d即为主成分数即为主成分数Nod=d+1RSD与实际误差是
13、否吻合判断标准BACK第22页,共48页,编辑于2022年,星期三相邻特征值比值法相邻特征值比值法出现最大值时相应的d 表示最小成分信号的表示最大噪声信号的 显著差异BACK第23页,共48页,编辑于2022年,星期三2.3 PCA的应用实例的应用实例BACK混合色素中组分数的确定反应过程中组分数的确定第24页,共48页,编辑于2022年,星期三一组一组食用色素混合溶液食用色素混合溶液测得吸光度矩阵测得吸光度矩阵Y156dd d d/d d+1+1 RSD14.6084.10.117421.1301.80.059930.614564.00.001740.00961.150.001550.008
14、41.160.0013PCA结果组分数 nc=3722的噪声水平的噪声水平0.0023 0.6145 64.0 0.0017第25页,共48页,编辑于2022年,星期三同样的样品同样的样品用用Agilent 8453dd d d/d d+1+1 RSD15.73611.70.046420.4902.50.019530.19964.30.000440.00312.10.000350.00151.90.0002PCA结果组分数 nc=3噪声水平噪声水平0.0002 3 0.199 64.3 0.0004实际上有3种色素胭脂红柠檬黄日落黄第26页,共48页,编辑于2022年,星期三反过来,已知主成分
15、数时PCA:通常可以正确判定主成分数通常可以正确判定主成分数根据RSD判断仪器的噪声水平判断操作者的操作水平使用7220.00100.0040BACK第27页,共48页,编辑于2022年,星期三实例讨论实例讨论-for a chemical reaction三种化学成分三种化学成分A、B、C,光谱线性无关光谱线性无关Model 1:Consecutive 1st order reactionResult:Rank=number of component=3第28页,共48页,编辑于2022年,星期三Matrix two-way data 光谱矩阵 S动力学矩阵 Q两维数据矩阵YY=QST第29
16、页,共48页,编辑于2022年,星期三日落黄电解降解日落黄电解降解最终产物最终产物无吸收无吸收有中间体有中间体吗吗?第30页,共48页,编辑于2022年,星期三日落黄电解降解日落黄电解降解dd d d/d d+1+1 RSD14.1476.000.025520.69125.800.001230.02682.350.000740.01141.180.000550.00970.0003PCA 结果组分数 d=2第31页,共48页,编辑于2022年,星期三PCA确定组分数确定组分数nnn/n+1 RSD123.06010.60.0617122.1862.40.0241130.910215.70.00
17、01440.0043.50.0000850.0011.20.0000760.0010.00007最终产物最终产物有吸收有吸收d=3第32页,共48页,编辑于2022年,星期三实例讨论实例讨论三种化学成分三种化学成分A、B、C,光谱线性无关光谱线性无关Model 2:nc=3,rank=2Y=QST第33页,共48页,编辑于2022年,星期三实例讨论实例讨论Model 3:Parallel reactionnc=3,rank=?ACBo1o2o1=or o2o1=o2=1k2qB-k1qC=0线性相关rank=2第34页,共48页,编辑于2022年,星期三实例讨论实例讨论Model 3:Para
18、llel reactionnc=3,rank=?ACBo1o2o1=0,o2=1dA/dt=k1+k2AdB/dt=k1dC/dt=k2A线性无关rank=3第35页,共48页,编辑于2022年,星期三PCA确定组分数确定组分数Y=load(E:Hp8453BBOH15.txt);U,S,V=svd(Y);lmd=diag(S);n=size(lmd,1);for k=1:n-1 sumlmd=0;for j=(k+1):n sumlmd=sumlmd+lmd(j)*lmd(j);end RSD(k)=sqrt(sumlmd/(nw*(nt-k);end第36页,共48页,编辑于2022年,星
19、期三PCA:Conclusions 根据矩阵的秩确定化学成分数组分无吸收No!谱线性相关亏秩!某组分信号太弱复杂!好大学问!BACK第37页,共48页,编辑于2022年,星期三3.PCR 回归 Principal Component Regression3.1 概念概念1 13.2 基本步骤基本步骤2 23.3 应用实例应用实例3 33.4 提醒提醒3 3第38页,共48页,编辑于2022年,星期三3.1 PCR:概念:概念BACK主成分分析PCA PCR多元校正之一因子分析FA 主成分回归PCR 多元校正MC 相似概念常常混用步骤略异侧重不同解决多组分同时测定问题定量第39页,共48页,编辑
20、于2022年,星期三3.2 PCR:基本步骤:基本步骤K-矩阵法 K-Matrix Method数学模型实验测量数据矩阵Size:nwns吸光系数矩阵Size:nwnc混合浓度矩阵Size:ncns建模/校正See next预测已知K K,解出未知样浓度单样品多样品第40页,共48页,编辑于2022年,星期三3.2 PCR:基本步骤:基本步骤SVD分解SVD分解分离重组广义逆建模未知样预报与K矩阵法相比仅一次求逆过程剔除了主成分模型误差系数矩阵P意义不明确但用于预报是正确的 BACK第41页,共48页,编辑于2022年,星期三Y:波长数nw=8;溶液数ns=6;组分数nc=3YV tUSnc=
21、3U后3列Vt后3行误差信息剔除后Y0V*tU*S*广义逆矩阵第42页,共48页,编辑于2022年,星期三多元线性回归MLRMultiple Linear RegressionK-矩阵法 建模相当于单波长单组分的工作曲线矩阵除法即乘以其逆矩阵方阵可求逆已知C C 第43页,共48页,编辑于2022年,星期三BACK多元线性回归MLRMultiple Linear RegressionK-矩阵法 建模建模/校正(相当于单波长单组分的工作曲线)矩阵除法即乘以其逆矩阵 方阵可求逆第44页,共48页,编辑于2022年,星期三3.3 PCR:应用:应用BACK光度法多组分同时测定速差动力学多组分同时测定
22、电化学谱的分辨及多组分测定多元校正滴定其他矩阵数据第45页,共48页,编辑于2022年,星期三3.4 PCR:注意:注意线性关系-比耳定律加和性-共同响应,最好无协同正交程度-波谱不严重重叠标准集C-混合组成,不必纯组分一些作者报道了几乎完全线性相关的体系固定系列波长/电位/时间/pH/etc 矩阵行列-一一对应第46页,共48页,编辑于2022年,星期三3.4 PCR:编程:编程BACKclear;nc=3;Y=load(Y_standard.dat);C=load(C_standard.dat);nw,ns=size(Y);Y_sample=load(Y_sample.dat);U,S,V=svd(Y);U=U(:,1:nc);S=S(1:nc,1:nc);V=V(:,1:nc);%KEY STEPPmat=C*V*inv(S)*U;C_sample=Pmat*Y_sampleY(217)C(37)P=CY0+(721)附数据,请解析 第47页,共48页,编辑于2022年,星期三Welcome to Tongji University!2002.11.15第48页,共48页,编辑于2022年,星期三