《判别分析法数精.ppt》由会员分享,可在线阅读,更多相关《判别分析法数精.ppt(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、判别分析法数第1页,本讲稿共42页蠓虫的分类 MCM89问题 两种蠓Af和Apf已由生物学家W.L.Grogan等于1981年根据它们的触角长和翼长加以区分.9只Af蠓用“”表示和6只Apf蠓用“”表示.根据给出的触角长和翼长识别出一只标本是Af蠓还是Apf蠓是重要的.(1)给定一只Af蠓或Apf蠓,你如何正确地区分它属于哪一族?(2)将你的方法用于触角长和翼长分别为(1.24,1.80),(1.28,1.84),(1.40,2.04)的三个标本.(3)设Af为宝贵的益虫,Apf是某种疾病的载体,是否应该修改你的分类方法,若需修改,怎么改?第2页,本讲稿共42页简单分类思想引一条直线将点分成两
2、类.如图所示.确定直线的方法1、回归线方法分别就Af和Apf数据引两条回归线Af y=0.85x+0.637Apf y=I.10 x+0.576平均 y=0.9625x+0.6065简单分类思想用它来判定发现不好2、心型平分线取Af和Apf的中心(1.41,1.80),(1.22,1.93),垂直平分线方程是y=1.52576x-0.1485第3页,本讲稿共42页蠓虫的分类 MCM89问题.变量编号 ApfX1 X21234561.14 1.781.18 1.961.20 1.861.26 2.001.28 2.001.30 1.96判别分析方法建模 1997(3)数理统计与管理 变量编号 A
3、fX1 X21234567891.24 1.721.36 1.741.38 1.641.38 1.821.38 1.901.40 1.701.48 1.821.54 1.821.56 2.08 变量编号 AfX1 X21234567891.24 1.721.36 1.741.38 1.641.38 1.821.38 1.901.40 1.701.48 1.821.54 1.821.56 2.08均值向量均值矩阵第4页,本讲稿共42页矩阵转置均值的无偏估计向量总体样本离差矩阵其中m是总体个数,将数据代入第5页,本讲稿共42页计算A的特征根及最大特征根对应的特征向量u=(a1,a2)T两个总体的均
4、值向量,代入Y1=3.5717 Y2=-0.3511 其他样本点代入计算判别函数值并计算他们的绝对值d1和d2.样本点距离123456789Af d1Apf d21.72.20.173.751.085.000.643.281.402.510.804.730.844.761.725.800.473.45可见均是Af蠓第6页,本讲稿共42页 样本点距离123456Af d1Apf d23.7980.1244.9321.0093.6790.7274.1350.2123.840.0833.160.76可见均是Apf蠓 样本点距离123 d1 d22.511.412.311.622.451.47三个样品
5、的判别函数值代入并求出距离可见均是Apf蠓判别分析是一种应用十分广泛的数学方法,2000年的DNA序列也可以运用此法第7页,本讲稿共42页判别分析判别分析引言距离判别程序计算第8页,本讲稿共42页引言 判别分析是用于判别个体所属群体的一种多元统计分析方法.产生于30年代,近年来在自然科学社会学及经济管理学科中都有广泛的 运用.例特点根据已掌握的历史信息,总结出客观事物分类的规律性,建立判别公式和判别准则,然后对新的样本点,只要根据准则就可以判别它属于哪一类别.从概率统计的角度来看,判别分析问题可归结为:设有k个组,所有组的样品都测量了相同的p个指标指标可表示成p维向量这k个组的分布函数是F1(
6、x),F2(x),Fk(x)对于给定的新样品对于给定的新样品 x,要求判别它属于哪一类要求判别它属于哪一类.第9页,本讲稿共42页距离判别马氏距离马氏距离(马哈拉诺比斯Mahalanobis,印度)通常我们理解的距离指欧氏距离,即p维空间中的两个点x=(x1,x2,xp)和y=(y1,y2,yp)它们之间的距离是不合适!设有两个总体,XN(1,),Y N(2,4),第10页,本讲稿共42页设x和y是从均值为协方差为(0)的总体中抽取的两个样品(p维),则总体内两点两点x和和y之间之间的平方马氏距离定义为点点x和总体和总体之间之间的平方马氏距离定义为第11页,本讲稿共42页二组距离判别设1,2组
7、的均值分别为1,2.协方差矩阵分别为1,2.(i0,i=1,2)1、12,1=2=是新样品,如何判别它来自哪一组计算x到两个组1,2的距离可按如下规则判别第12页,本讲稿共42页化简其中令错判概率第13页,本讲稿共42页实际运用设来自1,设来自2,1,2的无偏估计是其中和协方差矩阵的联合无偏估计举例第14页,本讲稿共42页2、1 2,1 2判别函数判别准则第15页,本讲稿共42页例题:对28名一级和25名健将级标枪运动员测试了6个影响标枪成绩的训练指标;30米跑(x1)、投小铅球(x2)、挺举重量(x3)、抛实心球(x4)、前抛铅球(x5)、五级跳(x6)。编号组别x1 x2 x3 x4 x5
8、 x6 12:2829:5311:12:23.60 4.30 82.3 70.0 90.00 18.523.30 4.10 87.48 80.00 1000.00 18.48:3.20 4.20 89.20 85.00 115.00 19.883.40 4.00 103.00 95.00 110.00 24.80:3.50 4.30 97.80 75.00 100,00 24.10对个未定级的运动员定级第16页,本讲稿共42页1=2=假设计算逆矩阵代入公式判别函数第17页,本讲稿共42页程序计算Data discat1;input no x1 x2 x3 x4 x5 x6 type;Label
9、 x1=30m x2=throw small ball x3=weight liftingx4=throw medicine medicine ball x5=shot put x6=5step and jump;Cards;13.60 4.30 82.30 70.00 90.00 18.52 123.30 4.10 87.48 80.00 100.00 18.48 1283.20 4.20 89.20 85.00 115.00 19.8 1293.40 4.00 103.00 95.00 110.00 24.80 2.第18页,本讲稿共42页.533.50 4.30 97.80 75.00
10、100.00 24.10 2;Run;Data discdat2;input no x1 x2 x3 x4 x5 x6;Label x1=30m x2=throw small ball x3=weight lifting x4=throw medicine medicine ball x5=shot put x6=5step and jump;Cards;1 3.50 4.10 85.30 75.00 105.00 18.65143.40 4.30 97.39 75.00 110.00 22.12;Run;Proc discrinm data=discdat1 testdata=discdat
11、2 crosslisterr testlist;Class type;Var x1-x6Run;第19页,本讲稿共42页2000网易杯全国大学生数学建模竞赛题目网易杯全国大学生数学建模竞赛题目A题题 DNA序列分类序列分类 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的
12、“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。第20页,本讲稿共42页例如,在全序列中有一些是用于编码蛋白质的序列片段,即由例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这这4个字符组成的个字符组成的64种不同的种不同的3字符串,其中大多数用于编码构成蛋字符串,其中大多数用于编码构成蛋白质的白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片
13、段中,种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想全序列是十分有意义的。目前在
14、这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。构。作为研究作为研究DNA序列的结构的尝试,提出以下对序列集合进行分序列的结构的尝试,提出以下对序列集合进行分类的问题:类的问题:1)下面有)下面有20个已知类别的人工制造的序列(见下页),个已知类别的人工制造的序列(见下页),其中序列标号其中序列标号110 为为A类,类,11-20为为B类。请从中提取特征,构造类。请从中提取特征,构造分类
15、方法,并用这些已知类别的序列,衡量你的方法是否足够好。分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外然后用你认为满意的方法,对另外20个未标明类别的人工序列(标个未标明类别的人工序列(标号号2140)进行分类,把结果用序号(按从小到大的顺序)标明它)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):们的类别(无法分类的不写入):A类类 B类类 。第21页,本讲稿共42页 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。这40个序列也放在如下地址的网页上,用数据文件Art-model
16、-data 标识,供下载:网易网址: 教育频道 在线试题;教育网: News mcm2000教育网: 中给出了182个自然DNA序列,它们都较长。用你的分类方法对它们进行分类,像1)一样地给出分类结果。提示提示:衡量分类方法优劣的标准是分类的正确率,构造分类方法有许多途径,例如提取序列的某些特征,给出它们的数学表示:几何空间或向量空间的元素等,然后再选择或构造适合这种数学表示的分类方法;又例如构造概率统计模型,然后用统计方法分类等。第22页,本讲稿共42页Art-model-data1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggag
17、gacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagcaaagga3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggaggaaggagggcggcaatcggtacggaggcggcgga4.atggataacggaaac
18、aaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaaatttgtattattatggtatcataaaaaaaggttgcga5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcggaaaggcggagggctggcaggaggctcattacggggag6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagtggatattaggagggc
19、ggaataaaggaacggcggcaca7.atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaacttgttttcggaaatggaaaaaggactaggaatcggcggcaggaaggatatggaggcg8.atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcgacaaggaggcggaccataggaggcggattaggaacggttatgagg第23页,本讲稿共42页9.atggcggaaaaaggaaatgtttggcatcggcgggctcc
20、ggcaactggaggttcggccatggaggcgaaaatcgtgggcggcggcagcgctggccggagtttgaggagcgcg10.tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatccaggcgtcgcacgctcggcgcggcaggaggcacgcgggaaaaaacg11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt1
21、2.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaatttggttttttttaaggtagttatttaattatcgttaaggaaagttaaa13.gtattacaggcagaccttatttaggttattattattatttggattttttttttttttttttttaagttaaccgaattattttctttaaagacgttacttaatgtcaatgc14.gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcggagttc
22、atattctaatctgtctttattaaatcttagagatatta15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaatttttttttttttttttttttttttttttttaaaatttataaatttaa16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctggatcgataatgtaaacttattgaatctatagaattacattattgat17.gtatgtctatttcacggaagaatgcaccactat
23、atgatttgaaattatctatggctaaaaaccctcagtaaaatcaatccctaaacccttaaaaaacggcggcctatccc第24页,本讲稿共42页18.gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttttttgtcctatagagaaattacttacaaaacgttattttacatactt19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattcttactttttttcttctttatataggatct
24、catttaatatcttaa20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgatttaaacttttgtttctttaaggattttttttacttatcctctgttat21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgatccgtaccgtaatttagcttagatttggatttaaaggatttagattga22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtqacgtaccg
25、tacgctaccgttaccggattccggaaagccgattaaggaccgatcgaaaggg 23.cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccggattaaggtttagcttcccgggatttagggcccggatggctgggaccc24.tttagctagctactttagctatttttagtagctagccagcctttaaggctagctttagctagcattgttctttattgggacccaagttcgacttttacgatttagttttgaccgt25.gaccaaaggtgggctttaggg
26、acccgatgctttagtcgcagctggaccagttccccagggtattaggcaaaagctgacgggcaattgcaatttaggcttaggcca26.gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccagtttcgcagctcagttttaacgcgggatctttagcttcaagctttttac第25页,本讲稿共42页27.ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaatgccaaaggacgctggttta
27、gccagtccgttaaggcttag28.tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaaaatttagacgttagggcttatcagttatggattaatttagcttattttcga29.ggccaattccggtaggaaggtgatggcccgggggttcccgggaggatttaggctgacgggccggccatttcggtttagggagggccgggacgcgttagggc30.cgctaagcagctcaagctcagtcagtcacgtttgccaagtcagtaatttgcca
28、aagttaaccgttagctgacgctgaacgctaaacagtattagctgatgactcgta31.ttaaggacttaggctttagcagttactttagtttagttccaagctacgtttacgggaccagatgctagctagcaatttattatccgtattaggcttaccgtaggtttagcgt32.gctaccgggcagtctttaacgtagctaccgtttagtttgggcccagccttgcggtgtttcggattaaattcgttgtcagtcgctctrtgggtttagtcattcccaaaagg33.cagttagctgaatcg
29、tttagccatttgacgtaaacatgattttacgtacgtaaattttagccctgacgtttagctaggaatttatgctgacgtagcgatcgactttagcac第26页,本讲稿共42页34.cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggctttagcgtaggctgacgctaggcttaggttggaacccggaaa35.gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaccacaggataaaagttaaggga
30、ccggtaagtcgcggtagcc36.ctagctacgaacgctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtcgcaattcgcaaaagtccccagctttagccccagagtcgacg37.gggatgctgacgctggttagctttaggcttagcgtagctttagggccccagtctgcaggaaatgcccaaaggaggcccaccgggtagatgccasagtgcaccgt38.aacttttagggcatttccagttttacgggttattttcccagttaaactttgcaccattttacg
31、tgttacgatttacgtataatttgaccttattttggacactttagtttgggttac39.ttagggccaagtcccgaggcaaggaattctgatccaagtccaatcacgtacagtccaagtcaccgtttgcagctaccgtttaccgtacgttgcaagtcaaatccat40.ccattagggtttatttacctgtttattttttcccgagaccttaggtttaccgtactttttaacggtttacctttgaaatttttggactagcttaccctggatttaacggccagttt第27页,本讲稿共42页第28页,本
32、讲稿共42页二二.模型的合理假设模型的合理假设各序列中各序列中DNA碱基三联组(即碱基三联组(即3字符串)的起始位置和基因表达不影响分类的结果。字符串)的起始位置和基因表达不影响分类的结果。64种种3字符串压缩为字符串压缩为20组后不影响分类的结果。组后不影响分类的结果。较长的较长的182个自然序列与已知类别的个自然序列与已知类别的20个样本序列具有共同的特征。个样本序列具有共同的特征。三三.模型建立与求解模型建立与求解研究研究DNA序列具有什么结构,其序列具有什么结构,其A,T,C,G4个碱基排成的看似随机的序列中隐藏着什么个碱基排成的看似随机的序列中隐藏着什么规律,是解读人类基因组计划中规
33、律,是解读人类基因组计划中DNA全序列草图的基础,也是生物信息学(全序列草图的基础,也是生物信息学(Bio informaties)最重要的课题之一。)最重要的课题之一。题目给出了题目给出了20个已知为两个类别的人工制造的个已知为两个类别的人工制造的DNA序列,要求我们从中提取特征,构造分序列,要求我们从中提取特征,构造分类方法,从而对类方法,从而对20个未标明类别的人工个未标明类别的人工DNA序列和序列和182个自然个自然DNA序列进行分类。序列进行分类。这是模式识别中的这是模式识别中的“有人管理分类有人管理分类”问题,即事先规定了分类的标准和种类的数问题,即事先规定了分类的标准和种类的数目
34、,通过大批已知样本的信息处理找出规律,再用计算机预报未知。给出的已知目,通过大批已知样本的信息处理找出规律,再用计算机预报未知。给出的已知类别的样本称为学习样本。对于此类问题,我们通过建立分类数学模型(这包括类别的样本称为学习样本。对于此类问题,我们通过建立分类数学模型(这包括形成和提取特征以及制定分类决策)、考查分类模型的效率、预报未知这几个步形成和提取特征以及制定分类决策)、考查分类模型的效率、预报未知这几个步骤来进行骤来进行。第29页,本讲稿共42页特征的形成和提取特征的形成和提取为了有效地实现分类识别,首先要根据被识别的对象产生一组基本特征,并对基本特征为了有效地实现分类识别,首先要根
35、据被识别的对象产生一组基本特征,并对基本特征进行变换,得到最能反映分类本质的特征。这就是特征形成和提取的过程。在列进行变换,得到最能反映分类本质的特征。这就是特征形成和提取的过程。在列举了尽可能完备的特征参数集之后,就要借助于数学的方法,使特征参数的数目举了尽可能完备的特征参数集之后,就要借助于数学的方法,使特征参数的数目(在保证分类良好的前提下)减到最小。这是因为:(在保证分类良好的前提下)减到最小。这是因为:1.多余的特征参数不但没有多多余的特征参数不但没有多少好处,而且会带来噪音,干扰分类和数学模型的建立。少好处,而且会带来噪音,干扰分类和数学模型的建立。2.为了保证样本数和特征为了保证
36、样本数和特征参数个数的比值足够大,而又不必要用太多的样本,最好使特征参数的个数降至最少。参数个数的比值足够大,而又不必要用太多的样本,最好使特征参数的个数降至最少。模式识别计算一般要求样本数至少为变量数的模式识别计算一般要求样本数至少为变量数的3倍,否则结果不够可靠。本问题的倍,否则结果不够可靠。本问题的学习样本数为学习样本数为20个,故特征参数的个数以个,故特征参数的个数以68个为宜。个为宜。我们通过研究我们通过研究4个字符个字符A,T,C,G在在DNA序列中的排列、组合特性,主要是研究字符和字符序列中的排列、组合特性,主要是研究字符和字符串的排列在序列中出现的频率,从中提取串的排列在序列中
37、出现的频率,从中提取DNA序列的结构特征参数。序列的结构特征参数。(一)(一)特征的形成特征的形成分别列举一个字符,分别列举一个字符,2个字符,个字符,3个字符的排列在序列中出现的频率,构成基本特征集。个字符的排列在序列中出现的频率,构成基本特征集。1个字符的出现频率个字符的出现频率表表1列出了列出了20个样本中个样本中A,T,C,G这这4个字符出现的频率。由于在不用于编码蛋白质的序列个字符出现的频率。由于在不用于编码蛋白质的序列片段中,片段中,A和和T的含量特别多些,因此我们将的含量特别多些,因此我们将A和和T是否特别丰富作为一个特征。在表一是否特别丰富作为一个特征。在表一中,列出了中,列出
38、了A和和T出现的频率之和。出现的频率之和。(程序见附录一程序见附录一)第30页,本讲稿共42页 A C T G A+T 1.29.73 17.12 13.51 39.64 43.24 2.27.03 16.22 15.32 41.44 42.34 3.27.03 21.62 6.31 45.05 33.33 4.42.34 10.81 28.83 18.02 71.17 5.23.42 23.42 10.81 42.34 34.23 6.35.14 12.61 12.61 39.64 47.75 7.35.14 9.91 18.92 36.04 54.05 8.27.93 16.22 18.9
39、2 36.94 46.85 9.20.72 20.72 15.32 43.24 36.04 10.18.18 27.27 13.64 40.91 31.82 11.35.45 4.55 50.00 10.00 85.45 12.32.73 2.73 50.00 14.55 82.73 13.25.45 10.00 51.82 12.73 77.27 14.30.00 8.18 50.00 11.82 80.00 15.29.09 .00 64.55 6.36 93.64 16.36.36 8.18 46.36 9.09 82.73 17.35.45 24.55 26.36 13.64 61.8
40、2 18.29.09 11.82 50.00 9.09 79.09 19.21.82 14.55 56.36 7.27 78.18 20.20.00 17.27 56.36 6.36 76.36 表表1第31页,本讲稿共42页22字符串的排列出现的频率字符串的排列出现的频率A,T,C,G这这4个字符组成了个字符组成了16种不同的种不同的2字符串。表字符串。表2列出了列出了20个样本中各个样本中各2字符串出现的频率。字符串出现的频率。(用(用“滚动滚动”算法,如算法,如attcg有有at,tt,tc,cg共共4个个2字符串)字符串)(程序与附录一类似程序与附录一类似)表表 2 AA AC AT
41、AG TA TC TG TT CA CT CC CG GA GT GC GG 1.9.01 9.01 3.60 8.11 4.50 .90 4.50 3.60 3.60 3.60 1.80 8.11 11.71 2.70 5.41 18.92 2.9.91 7.21 3.60 5.41 2.70 1.80 5.41 5.41 4.50 1.80 .90 9.01 9.91 4.50 5.41 21.62 3.5.41 11.71 3.60 5.41 2.70 1.80 .90 .90 5.41 .90 .90 14.41 13.51 .90 7.21 23.42 4.18.92 5.41 11
42、.71 5.41 10.81 1.80 5.41 10.81 5.41 1.80 .90 2.70 6.31 4.50 2.70 4.50 5.6.31 8.11 1.80 7.21 1.80 2.70 2.70 3.60 5.41 4.50 2.70 10.81 9.91 .90 9.01 21.62 6.15.32 2.70 6.31 9.91 3.60 1.80 1.80 5.41 4.50 .00 .00 8.11 10.81 .90 8.11 19.82 7.15.32 1.80 10.81 7.21 4.50 2.70 6.31 5.41 .90 1.80 .90 6.31 13.
43、51 .90 4.50 16.22 8.8.11 3.60 6.31 9.91 5.41 3.60 2.70 7.21 2.70 3.60 1.80 8.11 10.81 1.80 7.21 16.22 9.9.01 .90 4.50 6.31 .00 3.60 7.21 4.50 3.60 2.70 2.70 11.71 7.21 3.60 13.51 18.02 10.6.36 3.64 1.82 6.36 1.82 5.45 2.73 3.64 5.45 3.64 4.55 13.64 4.55 3.64 13.64 18.18 11.15.45 2.73 14.55 2.73 16.3
44、6 .91 1.82 30.00 .91 .91 .91 1.82 2.73 4.55 .00 2.73 12.13.64 .91 10.91 6.36 15.45 1.82 1.82 30.91 .91 .91 .00 .91 2.73 7.27 .00 4.55 13.6.36 4.55 10.00 4.55 12.73 1.82 2.73 34.55 2.73 2.73 1.82 1.82 3.64 4.55 1.82 2.73 14.8.18 .91 12.73 7.27 13.64 6.36 1.82 28.18 2.73 4.55 .00 .91 5.45 4.55 .91 .91
45、 15.13.64 .00 12.73 1.82 13.64 .00 2.73 48.18 .00 .00 .00 .00 1.82 3.64 .00 .91 16.16.36 3.64 15.45 .91 13.64 4.55 4.55 22.73 1.82 5.45 .00 .91 4.55 2.73 .00 1.82 17.17.27 5.45 10.91 1.82 10.00 6.36 4.55 5.45 4.55 7.27 9.09 2.73 3.64 2.73 3.64 3.64 18.8.18 7.27 11.82 1.82 15.45 1.82 .91 30.91 3.64 3
46、.64 1.82 2.73 1.82 3.64 .91 2.73 19.2.73 2.73 13.64 1.82 14.55 9.09 .913 1.82 1.82 8.18 1.82 2.73 2.73 2.73 .91 .91 20.6.36 6.36 6.36 .91 9.09 10.00 3.64 32.73 2.73 13.64 .91 .00 1.82 3.64 .00 .91第32页,本讲稿共42页33字符串的排列出现的频率字符串的排列出现的频率A,T,C,G这这4个字符组成了个字符组成了64种不同的种不同的3字符串。这字符串。这64种种3字符串字符串构成生物蛋白质的构成生物蛋白
47、质的20种氨基酸。在参考文献种氨基酸。在参考文献1的的Figur2中,给出了中,给出了这这20种氨基酸的编码(见图种氨基酸的编码(见图1)。因此,在计算)。因此,在计算3字符串的出现频率字符串的出现频率时,我们根据图时,我们根据图1将代表同一种氨基酸的将代表同一种氨基酸的3字符串合成一类,只统计字符串合成一类,只统计20类类3字符串的出现频率。(不考虑字符串在序列片段中的起始位字符串的出现频率。(不考虑字符串在序列片段中的起始位置,也采用置,也采用“滚动滚动”算法。如算法。如acgtcc中就有中就有acg,cgt,gtc,tcc共共4个个3字字符串)见表符串)见表3。(程序与附录一类似程序与附
48、录一类似)Figure 2.Symmetries of the diamond code sort the 64 codons into 20 classes,indicated here by 20 colors.All the codons in each class specified the same amino acid.图图1 Brian Hayes 在论文在论文“The Invention of the Genetic Code”中给出的图形中给出的图形 (注:图中(注:图中DNA被转录为被转录为RNA,“U”代表代表“T”第33页,本讲稿共42页表表 3 b1 b2 b3 b4
49、 b5 b6 b7 b8 b9 b10 b11 b12 b13 b14 b15 b16 b17 b18 b19 b20 1 1.77 3.54 2.65 0.88 0.00 0.00 7.96 0.88 4.42 2.65 17.70 10.62 3.54 4.42 4.42 7.08 1.77 3.54 13.27 7.08 2 1.89 1.89 0.94 0.94 0.00 0.94 1.89 0.94 4.72 12.26 7.55 11.32 8.49 3.77 3.77 6.60 9.43 6.60 7.55 2.83 3 0.98 0.00 0.00 5.88 0.98 8.82
50、 2.94 0.00 0.00 2.94 10.78 5.88 13.73 0.00 4.90 3.92 19.61 1.96 8.82 5.88 4 0.00 0.00 0.00 0.87 0.00 0.87 13.04 1.74 6.09 2.61 11.30 13.04 3.48 5.22 3.48 8.70 3.48 1.74 14.78 7.83 5 2.86 0.00 0.00 3.81 0.95 3.81 3.81 0.00 3.81 3.81 9.52 9.52 12.38 2.86 9.52 4.76 7.62 2.86 7.62 9.52 6 0.00 0.00 0.88