生物信息学.pdf

上传人:l**** 文档编号:80765767 上传时间:2023-03-23 格式:PDF 页数:15 大小:1.03MB
返回 下载 相关 举报
生物信息学.pdf_第1页
第1页 / 共15页
生物信息学.pdf_第2页
第2页 / 共15页
点击查看更多>>
资源描述

《生物信息学.pdf》由会员分享,可在线阅读,更多相关《生物信息学.pdf(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、中 国 科 学 技 术 大 学 2007-2008 学年第 1 学期考试试卷 考试科目:生物信息学 得分:_ 学生所在系:_ 姓名:_ 学号:_ 一、单项选择题(每题 3 分,共 30 分)1.下面哪个数据库不属于核酸的三大数据库之一 ()A GenBank B.EBI C.UniProt D.DDBJ 2.下面哪种算法为双序列比对全局优化算法 ()A.Smith-Waterman 算法 B.Gibbs Sampler C.Hidden Markov Model 算法 D.Needleman-Wunsch 算法 3.下面哪种工具为多序列比对工具 ()A.MegaBlast B.MEGA C.G

2、PS D.POA 4.双序列比对中,全局与局部的优化算法,其核心思想是 ()A.利用已知数据作为训练集,利用迭代的算法进行反复计算,使得结果收敛;B.根据已知数据,构建 PSSM 矩阵,再计算 Log-odd ratio;C.采用动态规划算法,计算最优路径,并以此得到比对结果;D.采用邻接法构建进化树,在进化树的指导下进行双序列比对。5.下面何种描述适合 Baum-Welch 算法 ()A.双序列比对的局部优化算法;B.Motif 发现的方法之一 C.对已知的训练数据,采用 Viterbi 算法计算最佳路径,并重新计算转移概率矩阵,反复计算直至结果收敛,得到优化的 HMM 模型;D.对已知的训

3、练数据,采用 Smith-Waterman 算法计算最佳路径,并重新计算转移概率矩阵,反复计算直至结果收敛,得到优化的 HMM 模型;6.实验学家在大肠杆菌中发现某种基因 A,具有重要的转录调控功能,通过Reciprocal Best Hits的方法,实验学家用 BLAST 发现在人中基因 B 为基因 A 的高度相似基因。那么,人中基因 A 与基因 B 的关系为 ()A旁系同源物 B.趋同进化 C.直系同源物 D.异同源物 7.下面不属于多序列比对的算法有 ()A.最大简约法 B.渐进方法 C.迭代方法 D.部分有向图法 8.下面基于氨基酸的替代模型并进行距离修整的模型有 ()A.Jukes-

4、Cantor 法 B.Kimura 两参数法 C.泊松校正 D.Nei-Gojobori 法 9.下面不属于构建进化树的方法有 ()A.最大似然性法 B.最大简约法 C距离法 D.点阵法 10.已知密码子 CCT,CCC,CCA,CCG 都编码 Pro(脯氨酸),并且仅该四个密码子都编码 Pro。对于密码子 CCC,其潜在的同义位点数目 s 与非同义位点数目 n 为 ()A s=1/3,n=8/3 B.s=1,n=2 C.s=1/4,n=11/4 D.s=1,n=8/3 二、判断题(每题 2 分,共 20 分)1.PAM250 矩阵的构建,其基本假设为当序列变化发生期望上的 250%的变化时,

5、氨基酸之间替代的关系,因此,Dayhoff 等人选择序列相似性极低的序列,以此构建了通用的 PAM250 矩阵 ()2.我们通常使用 UniProt 数据库来查找基因的 DNA 序列,并得到序列的 FASTA 格式 ()3.BLAST 采用了一种称为“k-tup”的算法,搜索两条序列的对角线两边有限的空间,因此大大节省了计算时间 ()4.MUSCLE 是目前被广泛应用的多序列比对工具,其优越性为采用部分有向图的算法,从而使得运算的时间复杂度大为降低 ()5.Ka/Ks 为表征编码区 DNA 序列是否受到选择压力的主要手段,对于某对基因 A和 B,我们通过计算发现 Ka/Ks=,并且通过 Fis

6、hers Exact Text 检验后,为统计显著,因此我们可以推测 A 和 B 在分化之后受到达尔文的阳性进化选择的压力 ()6.隐马尔科夫算法中的“隐”,指的是状态之间的转移概率已知,而状态内的发散概率未知,因此,隐马科夫并不表示所有的概率未知。()7.蛋白质上的模体/motif,一般指长度为几个到几十个氨基酸,并且不具有独立的三级结构的氨基酸片段。例如 SUMO 化位点的 motif,一般可表示为:-K-X-E.()8.估算鸟枪法的覆盖率,使用超几何分布的方法能够相当简便的结算出结果。()9.DNA 突变的模式有四种:替代、插入、缺失和倒位。而DNA 替代又分为转换和颠换两种。()10.

7、中性进化是由 Kimura 最早提出,认为绝大多数的突变不好也不坏,并不决定物种的分化。受达尔文进化所调控的基因约为1%,这些基因数量虽然很少,却对物种的分化起到了决定性的作用。()三、综合题(每题 10 分,共 50 分)1.表观遗传学的研究内容主要包括 DNA 的甲基化,组蛋白的乙酰化、甲基化及其它修饰,染色体重塑以及 SiRNA 与 MiRNA 调控四个方面。其中 DNA 的甲基化发生在基因组的特定位置,通常是-CG-序列中的 C 上,C 被化学修饰,引入一个甲基,并很快突变为 T。编码区 DNA 上游启动子区域的 DNA 甲基化水平的高低,对基因表达量的高低有着重要的影响,一般低甲基化

8、对应基因的高表达,高甲基化则对应基因的低表达。实验学家通过实验鉴定了 30 条平均长度为1000bp 的 DNA 序列,总共鉴定了 60 个甲基化位点。生物信息学家基于这些实验数据,构建了预测工具,对于新的两条序列 M 和 N,长度分别为 2000bp 和1500bp,并预测 A 和 B 上分别有 3 个和 9 个位点。那么,对于预测出来的位点,若全部是随机产生的概率为多少已知泊松分布的公式为:!)()(xexfx A R D Q E L K P A 4-1-2-1-1-1-1-1 R-1 5-2 1 0-2 2-2 D-2-2 6 0 2-4-1-1 Q-1 1 0 5 2-2 1-1 E-

9、1 0 2 2 5-3 1-1 L-1-2-4-2-3 4-2-3 K-1 2-1 1 1-2 5-1 2.对 于 两 条 蛋 白 质 序 列:AQPPKKE 和 LEPKRD,请分别用(1)Needleman-Wunsch 算法;(2)Smith-Waterman 算法对两条序列作比对;对于Gap 的罚分为 8,线性罚分规则;用图示法表明比对过程,并写出比对结果、得分,对于 Smith-Waterman 算法,结果表示为单一的比对结果。打分矩阵采用 BLOSUM62 矩阵,部分矩阵如下:3.请用图示法并辅以必要的文字,描述 Gibbs 采样抽取序列 motif 的过程。这里,假设有 n 条序

10、列,长度 k,待抽取的 motif 长度为 m.4.给定一组 DNA 序列如下:CGACCTA CGACGAT CGTCGAA TCTCGAG(1)根据上述 DNA 序列,请写出一种 PSSM 矩阵;(2)给定一条新的序列 CGTCGAG,计算 log-odd ratio,该例中,四种碱基的背景值都为;(3)请计算模体中,第三位和第五位所包含的信息量。5.直系同源物(Ortholog)与旁系同源物(Paralog)之间有什么区别请用图示法并辅以必要文字进行描述。P-1-2-1-1-1-3-1 7 中 国 科 学 技 术 大 学 2008-2009 学年第 1 学期考试试卷 考试科目:生物信息学

11、 得分:_ 学生所在系:_ 姓名:_ 学号:_ 一、单项选择题(每题 3 分,共 30 分)1.下面哪种方法不是基因共表达相关性的分析方法 ()A Pearson correlation coefficient B.Kendalls tau C.T-Test D.Euclidean distance 2.针对 DNA 序列的同义与非同义的核苷酸替代,若 Ka/Ks=,则可能发生了何种进化过程 ()A.阳性进化 B.达尔文进化 C.阴性进化 D.中性进化 3.下面哪种工具不是分子进化树构建工具 ()A.T-Coffee B.MEGA C.PAML D.PHYLIP 4.隐马尔科夫算法中的 Bau

12、m-Welch 算法,其核心思想是 ()E.采用邻接法构建进化树,在进化树的指导下进行双序列比对;F.利用已知数据作为训练集,利用迭代的算法进行反复计算,使得结果收敛;G.根据已知数据,构建 PSSM 矩阵,再计算 Log-odd ratio;H.采用动态规划算法,计算最优路径,并以此得到比对结果。5.不属于 DNA 突变的模式有 ()A.倒位;B.颠换;C.插入;D.替代。6.利用点阵法不能够做到或发现 ()A反向回文序列 B.自身比对 C.重复序列 D.序列模体识别 7.下面哪个数据库是蛋白质数据库 ()A.RefSeq B.EBI C.DDBJ D.GenBank 8.近年,我校学者与复

13、旦大学研究者合作,在芽殖酵母发现了泛素家族的一个分子化石 Urm1,稍后有研究者利用 BLAST 发现了人类的 Urm1,那么人类的泛素蛋白质与人类 Urm1 的关系是 ()A 直系同源物 B.趋同进化 C.旁系同源物 D.异同源物 9.下面不属于双序列比对的方法有 ()A.Smith-Waterman 算法 B.距离法 C.Needleman-Wunsch 算法 D.点阵法 10.已知密码子 ATT,ATC,和 ATA 编码 Ile(异亮氨酸),而 ATG 编码 Met(甲硫氨酸)。则对于密码子 ATC,其潜在的同义位点数目 s 与非同义位点数目 n 为 ()A.s=2/3,n=7/3 B.

14、s=1,n=2 C.s=1/4,n=11/4 D.s=1/3,n=8/3 二、填空题(每空 2 分,共 20 分)1.使用多序列工具比对两条序列,发现 71%的区域相同,若这两条序列为蛋白质序列,则这两条序列的泊松距离为();若两条序列为核酸序列,则 Jukes-Cantor 距离为()。2.给定一组 DNA 序列如下(碱基的背景值为):CTACTAGC CGACATGG CTACATGG CTTGAAGC 给定一条新的序列 CGACAAGC,其 log-odd ratio(以 2 为底计算数值)为();该组 DNA 序列,其第二位的信息量为(),第八位的信息量为()。3.实验学家从 1000

15、 个 4bp 的 DNA 序列中鉴定了 200 个 X-box 序列,其中第一位T 的出现概率为,第二位 A 出现的概率为,第三位 C 出现的概率为,第四位 A出现的概率为,C 出现的概率为。其他位点出现的概率各自相同。则序列 TACA可能是 X-box 的概率为(),序列 TACC 可能是 X-box 的概率为()。4.蛋白质磷酸化位点的预测是一个重要的生物信息学问题。实验学家以 405 个磷酸化蛋白质为训练数据,包含 800 个实验验证的磷酸化位点和 16000 个非磷酸化位点,开发了 P 工具。利用 P 工具做 Self-consistency 检验,总共预测出 1470个阳性结果,则该

16、工具的灵敏度 Sn 为(),特异性 Sp 为(),准确性 ACC 为()。三、综合题(每题 10 分,共 50 分)3.请用图示法并辅以必要的文字,描述基因表达数据聚类算法K-means clustering算法的计算流程,假设有 N 个基因,拟分成 M 类。4.基因的 5UTR 区域通常包含调控该基因表达的顺式元件,这些元件主要有启动子或称转录因子结合位点、增强子、沉默子以及辅助元件等。一般实验学家抽取基因的 5UTR 区域 10003000bp 的序列,构建到报告基因的 5端,通过分子生物学的方法进行定点突变,从而发现功能性的顺式元件。某实验室构建了 80条平均长度为 1500bp 的基因

17、 5UTR 的 DNA 序列,总共鉴定了 360 个顺式元件。针对两条新的 DNA 序列 A 和 B,长度分别为 1000bp 和 2000bp,若通过生物信息学的方法预测出 A 和 B 上分别有 7 个和 2 个位点。对预测出的位点,若全部是随机产生的概率为多少已知泊松分布的公式为:!)()(xexfx 5.对于两条蛋白质序列:SQYYRKD 和 LEYKRK,请分别用(1)Needleman-Wunsch算法;(2)Smith-Waterman 算法对两条序列作比对;对于 Gap 的罚分为 8,线性罚分规则;用图示法表明比对过程,并写出比对结果、得分,对于Smith-Waterman 算法

18、,结果表示为单一的比对结果。打分矩阵采用 BLOSUM62矩阵,部分矩阵如下:6.某实验室拟研究正常细胞与癌症细胞的不同,将正常细胞和癌症细胞的样品分别点样到包含 23,000 个人类基因的芯片上,并发现在癌症细胞中表达显著上调的基因有 1,132 个。进一步做功能分析,发现人类基因中总共有 1,521 个基因具有某种功能 GO,而在表达量上调的基因中,有 49 个基因具有该功能。问:该功能 GO 在表达量显著升高的基因中是显著出现,显著不出现,还是随机出现要求:写出相关的计算公式,并填入实际数据,不计算最终结果。已知超几何分布的公式:5.请列举至少两种多序列比对算法,并简要列出算法的计算过程

19、。S R D Q E L K Y S 3-1-3-1-1-1-1-1 R-1 7-2 1 0-2 2-2 D-3-2 6 0 2-4-1-1 Q-1 1 0 5 2-2 1-1 E-1 0 2 2 6-3 1-1 L-1-2-4-2-3 4-2-3 K-1 2-1 1 1-2 5-1 Y-1-2-1-1-1-3-1 9 nNmnMNmMmP)(一、参考答案 一、单项选择题(每题 3 分,共 30 分)CDDCCCACDB 二、判断题(每题 2 分,共 20 分)三、综合题(每题 10 分,共 50 分)1.PA,PB 2.(1)Needleman-Wunsch 算法 比对结果:AQPPKKE

20、LEP-KRD (2)Smith-Waterman 算法 PKKE PKRD 3.(1)从每条序列上随即抽取一段序列模体,长度为 m;(2)构建 PSSM 矩阵;(3)随机挑选一条序列;(4)用构建好的 PSSM 对该序列上所有可能的模体进行打分;(5)根据似然性的公式进行计算,得到似然性最大的模体,为新的模体;(6)将新的模体替换原有的序列,更新 PSSM 矩阵;(7)反复迭代计算,直至似然性结果与 PSSM 不再发生变化。4.(1)1 2 3 4 5 6 7 A 0 0 0 0 T 0 0 0 C 0 1 0 0 G 0 0 0 0 (2)log-odd ratio=log2(648)=(

21、3)H3=1 bit H5=bit 5.直系同源物:两个基因通过物种形成的时间而产生;旁系同源物:两个基因在同一物种中,通过至少一次基因复制时间而产生。二、参考答案 三、单项选择题(每题 3 分,共 30 分)CDABBDACBA 四、填空题(每题 2 分,共 20 分)1.,2.,1 3.,4.%,%,%三、综合题(每题 10 分,共 50 分)1.(1)随机选取 M 个点,作为每一个类的中心点 (2)计算其他点与这 M 个中心点的距离,将每个点按照离哪个中心点近,归在哪个类中 (3)针对每一类中的每一个点,计算其与其他点的距离,加和,除以该类点的数目,找到新的中心点,即改点到该类中其他点的

22、平均值最小,从而确定新的M 个中心点 (4)重复步骤 2,3,直到结果收敛 (5)最终结果:N 个基因表达数据被聚成 M 类 2.P(A)=,P(B)=3.(1)Needleman-Wunsch 算法 比对结果:SQYYRKD LEYKRK-得分:13 (2)Smith-Waterman 算法 QYYRK EYKRK 得分:22 4.4901132230001132214791521)(mmmmmPvaluep 5.(1)渐进算法:a.将所有序列两两比对,计算距离矩阵 b.构建邻接进化树(neighbor-joining tree)/指导树(guide tree)c.将距离最近的两条序列用动态

23、规划的算法进行比对 d.“渐进”的加上其他的序列 (2)T-coffee 算法:a.采用 Clustal 程序计算两两序列之间的全局最优比对结果 b.采用 LALIGN 程序计算两两序列之间的局部最优比对的结果 c.设计加权系统,综合考虑以上两类结果的因素,构建指导库 d.最后,采用渐进式比对算法,得到最终的结果 生物信息学 课堂测验 1.蛋白质的磷酸化是最重要的一种翻译后修饰,实验学家最近鉴定了某个激酶 X 的底物,总共 20 个底物蛋白质,序列平均长度 500aa。在这些蛋白质上,总共鉴定了 50 个位点。基于这些实验数据,生物信息学家构建了相关的计算预测工具。对于给定的两个蛋白质序列A

24、和 B,长度分别为 500aa 和 800aa,计算工具预测这两个蛋白质上分别有 10 和 4 个潜在的位点。考虑到计算工具本身具有一定的错误率,对于 A 和 B,预测出来的位点,若全部是随机产生的概率为多少(泊松分布)2.发现细胞有丝分裂过程中参与重要功能的基因,可以通过基因芯片的方法进行研究。某实验室开展了一项工作,对细胞有丝分裂期不加 nocodazole 以及加 nocodazole 两种条件下,对人的 21,000 基因做表达谱分析。其中发现表达量显著升高的基因为 1,532 个。进一步做功能分析,发现总共 1,236 个基因具有某种功能 F,而在表达量显著升高的基因中,有 32 个

25、基因具有该功能 F。问:该功能 F 在表达量显著升高的基因中是显著出现,显著不出现,还是随机出现要求:写出相关的计算公式,并填入实际数据,不计算最终结果。已知超几何分布的公式:(超几何分布)3.实验学家从 1500 个 4bp 的 DNA 序列中鉴定了 300 个某种 X-box 序列,其中第一位 A 的出现概率为,第二位 T 出现的概率为,第三位 A 出现的概率为,第四位 C 出现的概率为,G出现的概率为。其他位点出现的概率各自相同。现有两条序列,ATAC 和 ATAA,两条序列可能是 X-box 的概率为多少(贝叶斯公式)nNmnMNmMmP)(4.对于两条蛋白质序列:IDRRPAE 和

26、LDRPAW,请分别用(1)Needleman-Wunsch 算法;(2)Smith-Waterman 算法对两条序列作比对;对于 Gap 的罚分为 8,线性罚分规则;用图示法表明比对过程,并写出比对结果、得分。打分矩阵采用 BLOSUM62 矩阵,部分矩阵如下:A R D E I L P W A 4-1-2-1-1-1-1-3 R-1 5-2 0-3-2-2-3 D-2-2 6 2-3-4-1-4 E-1 0 2 5-3-3-1-3 I-1-3-3-3 4 2-3-3 L-1-2-4-3 2 4-3-2 P-1-2-1-1-3-3 7-4 W-3-3-4-3-3-2-4 11(全局比对和局部

27、比对)5.给定一组 DNA 序列如下:ACTTCCCA AGTTCCCA ACTCGGCA CCTTCGCA (1)请根据上述 DNA 序列,写出两种 PSSM;(2)再给一条新的序列 AGTCGCA,计算 log-odd ratio,该例中,碱基的背景值都为;(3)请分别计算第一位和第六位所包含的信息量 6.请用图示法并辅以必要的文字,描述 Gibbs 采样抽取序列 motif 的过程。这里,假设有 n条序列,长度 k,待抽取的 motif 长度为 m.7.请列举至少两种多序列比对算法,并简要列出算法的计算过程。ClustalX PRRP 8.请用图示法并辅以必要的文字,描述基因表达数据聚类

28、算法 K-means clustering 算法的计算流程,假设有 N 个基因,拟分成 M 类。9.使用多序列工具比对两条序列,发现 60%的区域相同,(1)若这两条序列为蛋白质序列,请计算泊松距离;(2)若两条序列为核酸序列,请计算 Jukes-Cantor 距离。泊松距离:-ln=Jukes-Cantor 距离:d=-3/4ln(1-4/3p)=10.给定一组 DNA 序列如下:CGACCTC CACCCTA CCACCTG GTACAAC (1)请根据上述 DNA 序列,写出两种 PSSM;(2)再给一条新的序列 CCACCTC,计算 log-odd ratio,该例中,碱基的背景值都为

29、;(3)请计算第二位和第三位所包含的信息量。11.假设基因组上有一种调控信号 S,长度和位置不确定。信号 S 和基因组序列 G 的碱基分布频率分别为:C G A T S G S 与 G 之间的转移概率矩阵如下:S G S G 请用 Viterbi 算法计算序列 AATCCGTA,预测是否存在该调控信号 S,并标出相应的位置。(马尔科夫模型)12.如果题目三中,假设转移矩阵并不是最终的优化结果,采用 Baum-Welch 算法,你如何进行优化这里,假设已经给你若干条实验数据作为训练样本。13.直系同源物(Ortholog)与旁系同源物(Paralog)之间有什么区别请用图示法并辅以必要文字进行描述。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 解决方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁