2022年生物信息学数据库列表终版 .pdf

上传人:H****o 文档编号:33391652 上传时间:2022-08-10 格式:PDF 页数:7 大小:94.31KB
返回 下载 相关 举报
2022年生物信息学数据库列表终版 .pdf_第1页
第1页 / 共7页
2022年生物信息学数据库列表终版 .pdf_第2页
第2页 / 共7页
点击查看更多>>
资源描述

《2022年生物信息学数据库列表终版 .pdf》由会员分享,可在线阅读,更多相关《2022年生物信息学数据库列表终版 .pdf(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、生物信息学数据库列表美国生物技术信息中心(NCBI)GenBank (http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html)欧洲分子生物学实验室(EMBL )EMBL-Bank(http:/www.ebi.ac.uk/embl/index.html) 日本遗传研究所DDBJ(http:/www.ddbj.nig.ac.jp/) 基因组数据库:NCBI 基因组数据库Entrez Genmous (http:/www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome) 人类基因组计划图谱数据库:GDB(http:

2、/www.gdb.org/) 酵母基因组数据库:SGD(http:/www.yeastgenome.org/) 小鼠基因组信息学数据库:MGI(http:/www.informatics.jax.org/) 果蝇基因组数据库:FlyBase(http:/flybase.bio.indiana.edu/) 线虫基因组数据库:WormBase(http:/www.woembase.org/) 综合基因组数据库:Ensembl(http:/www.ensembl.org/ ) 表达序列标记数据库dbEST(http:/www.ncbi.nlm.nih.gov/dbEST/) 序列标记位点数据库dbS

3、TS(http:/www.ncbi.nlm.nih.gov/dbSTS/) 蛋白质序列数据库PIR(http:/www.nbrf.georgetown.edu/pir/) SWISS-PROT( http:/www.ebi.ac.uk/swissprot/ ) TrEMBL( http:/www.ebi.ac.uk/trembl/index.html) 蛋白质数据仓库Uniprot( http:/www.ebi.ac.uk/uniprot.index.html) 生物大分子结构数据库PDB(protein date bank)(http:/www.rcsb.org/pdb/ ) MMDB(mo

4、lecular modeling database) (http:/www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml) 单碱基多态性数据库dbSNP(http:/www.ncbi.nlm.nih.gov/SNP/) 蛋白质结构分类数据库SCOP(http:/scop.mrc-lmb.cam.ac.uk/scop/ ) 蛋白质二级结构数据库DSSP(http:/www.sander.embl-heidelberg.de/dssp/ ) 蛋白质同源序列比对数据库HSSP(http:/www.sander.embl-heidelberg.de/hssp/

5、) 序列模式数据库PROSITE( http:/www.expasy.org/prosite/ ) 蛋白质指纹数据库PRINTS( http:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/) 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 7 页 - - - - - - - - - 人类遗传数据库OMIM( http:/www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=OMIM) 基因启动子数据库EP

6、D(http:/www.epd.isb-sib.ch/ ) 转录调控区域数据库TRRD( http:/www.mgs.bionet.nsc.ru/trrd/ ) 转录因子数据库TRANSFAC( http:/www.gene- ) 基因本体数据库GO(http:/www.geneontology.org/ ) 生物、医学文献数据库PubMed(http:/www.ncbi.nlm.nih.gov/) 目录数据库DBCat( http:/www.infobiogen.fr/services/dbcat/) 数据库集成ENTREZ( http:/www.ncbi.nlm.nih.gov/Entre

7、z/) SRS(http:/srs.ebi.ac.uk/) ExPASy(http:/www.expasy.org/ ) 生物信息分析工具GCG(http:/ ) Wisconsin 软件包转基因的主要公司:AgroEvo American Cyanamid BASF Bayer Dow Chemical DuPont FMC Monsanto Novartis Rhone-Poulenc Zeneca 1、 生物大分子的序列是分子进化的产物,来源于共同祖先的序列倾向于表现相似的序列、结构和生物学功能。2、 序列相似性是合理的预测成为可能。通常,对新序列的功能所知甚少,如能在数据库中找到相似序

8、列,而后者的节购与功。 。相似性搜索工具十分重要:BLAST FASTA 相似性检索的方式机内容:心序列作为“ QUERY ”输入,在数据库中通过比较寻找与其相似的序列:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 7 页 - - - - - - - - - 1、 两两比较:比较两条序列间相似区域和保守位点,寻找分子进化关系2、 多重比较:寻找共同的保守区、位点,导出产生共同功能的序列模式3、 蛋白与核酸:寻找核酸序列可能的表达框架4、 蛋白序列与具三维结构信息的蛋白比

9、较:获得蛋白折叠类型的信息蛋白结构与功能必须列具有更大的保守性,据粗略估计,如果序列年间的相似性超过30%,他们就可能是同源的。序列比较:序列比较包括从两个或多个序列中找出所有显著相似的区域。最主要的问题: 对于生物序列来说何为显著相似(偶然相似性和反应真实的进化及功能关系的相似性)。功能被编码与序列之中,即序列提供了句法。编码具有一定的冗余度(redundancy) ,即序列中一些位点的改变可以保持功能不变,这就使编码具有强劲的语义学。序列对位排列 (aligment ) 是序列分析的基础在序列比较时必须考虑“gaps”的存在,采用通常“gaps”可以大大增加匹配碱基数量。序列比对的数学模型

10、分为两类:整体比对、局部比对局部相似比对往往比整体比对具有更高的灵敏度,其结果更具有生物学意义。算法:Needleman-Wunch 算法( global alignment )寻找序列间的全局相似性,队列涵盖序列的全部内容S,ith-Waterman 算法( Local alignment )队列几分:两个序列间对位排列的质量用记分系统计算原则:相同或相关残基记分,不匹配残基和gaps 罚分记分 /罚分标准:特殊氨基酸出现频率高频率氨基酸在序列中随机排列概率间隔长度及出现频率对位排列的分数是上述记分/罚分的代数和,分数越高越好记分系统 -氨基酸置换打分矩阵打分矩阵:给不同氨基酸配对定义的一系

11、列相似性分值。常用的相似性矩阵:突变数据矩阵(MD )PAM250 模块替换矩阵BLOSUM62 PAM 矩阵基于进化的突变模型,通过可接受突变(自然选择)估计序列中的氨基酸置换几率。矩阵中大于0 的元素对应的2 个残基间发生突变的可能性较大,小于0,可能性较小,等于 0,可能性是随机的。BLOSUM 矩阵基于个蛋白家族的保守氨基酸模式(区块),根据数据库中所有排列的模式对置换类型进行记分。间隔罚分形式:1、 每一个 Gap 对应一个固定的罚分A,A 的大小控制罚分的强度程度。2、 罚分 Gsp 长度成比例BL,较长的Gap 有较大的罚分。名师资料总结 - - -精品资料欢迎下载 - - -

12、- - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 7 页 - - - - - - - - - 3、A 比较大, B 比较小。IDENTITY (匹配率):用匹配残基占队列长度的百分比表示。与比对的长度无关,可提供长度不同序列间的比较。Positive IDENTITY对核酸序列比对是合理和充分的。而蛋白质序列的比对还需要考虑氨基酸的性质 (置换的倾向性 )。SIMILARITY/HOMOLOGY 任何一组序列均可表现相似性,同原序列必须来源于共同的祖先;相似的序列可能同源,可能不同源。相似性: 通常在某位点上有一些氨基酸被另外

13、一些化学物理特性相近的氨基酸所代替,这种突变可称为保守突变。同源性:只有当两个蛋白质在进化关系上具有共同的祖先时,才可称为他们同源的。序列相似性比较:就是将待研究序列与DNA 或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。常用程序包:BLAST FASTA 序列同源性分析: 是将待研究序列加入到一组遇之同原,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。常用程序包:CLUSTAL 数据库检索:是选择两个序列 -是否蛋白质序列- - - 局部对位排列否是否高质量排列- 改变参数(记分矩阵、间接罚分)是是排列记分的统计检

14、验-检查序列,排除重复序列- - - - 排列是否改进记分是否显著 - 序列不具相似性序列显著相似BLAST (basic local alignment search tool ) :程序名序列查询数据库搜索方法Blastn 核酸核酸核酸序列搜索逐一核酸数据库的序列Blastp 蛋白质蛋白质蛋白质序列搜索逐一蛋白质数据库中的序列Blastx 核酸蛋白质核酸序列6 框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索Tblastn 蛋白质核酸蛋白质序列和核酸数据库重点俄核酸序列6 框翻译后的蛋白质序列逐一比对TBlastx 核酸核酸核酸序列6 框翻译成蛋白质序列,再和核酸数据库中的核酸序列6 框

15、翻译成的蛋白质序列逐一比对名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 7 页 - - - - - - - - - BLAST 网络版:http:/blast.ncbi.nlm.nih.gov/Blast.cgi不利于操作大批量的数据,同时也不能自己定义搜索的数据库。基本步骤:1、 滤去 QUERY 中的低重复型区域(对位排列无意义)2、 在 QUERY 中列出固定长度的WORDS (蛋白质序列为3,核酸序列为11,翻译后为3) ,如 1,2,3;2,3,4。 。 。序

16、列最后3 位3、 利用 WORD 在数据库中查询任何3 个字母组成的对位排列记分(PQG 完全匹配为18,与 PEG 为 15。 。 。 ) ,结果可能数千条。4、 选择截断值T(threshold) ,减少结果数目,结果缩至数十条。5、沿序列的每个方向扩展,只要分值增加就持续进行扩展。如果记分不再增加,从而产生一个扩展序列,称为高几分片断HSPs 6、记分显著性的统计学分析:Score:使用打分矩阵对匹配的片断进行打分,这就是对各对氨基酸(碱基)打分求和的结果,一般来说,匹配片断越长、相似性越高则Score值越大。Evalue; 在相同长度的情况下,两个氨基酸残基随机排列的序列进行打分,得到

17、上述Score值的概率的大小。E值越小表示随机情况下得到该Score 值的可能性越低。重复序列的过滤:重复序列降低了相似性搜索的质量,必须在进行BLAST 前从 QUERY 序列中除去 (过滤)。BLAST 要点:1、 E 值十分重要,是判断相似性的重要根据。E 值选小更能反映真实的相似性,但选大也有必要,可以找到短的形似区域。2、 DESCRIPTION 数及 ALIGNMENT数不应过小。3、 点击列表中的SCORE 可以直接跳到对应的ALIGNMENT 4、 可选最高分值的序列判断QURY 的功能。但如果该序列长于QUERY ,不能轻易判断是同原物,应对PSI-Blast。叠代数据库搜索

18、(PSI-Blast) :BLAST 仅能检测全部远缘进化关系中的20%。PSSM:参数设置与BLAST 的区别:1、 数据库通常选nr(非冗长蛋白序列) 2、 两个 E 值, Wxpext 为起始 Blsat,默认为 0 ,第二个为0.005 多重序列比对()序列相似性比较:序列同源性分析:多序列比对在阐明一组相关序列的重要生物学模式方面起着重要的作用。所序列比对的方法:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 7 页 - - - - - - - - - 1、 手

19、工比对( bioeditseaview.Genedoc)辅助软件结合实验结果或文献资料残基种类残基特性颜色Asp Glu 酸性红His Arg Lys 碱性兰Ser Thr Asn Gln 。 。 。 。 。2、 计算机程序比动化比对最常见的就是clustal 所采用的方法。在比对过程中, 先对所有的序列进行两两比对并计算他们的相似性分值,然后根据相似性分值将他们分成若干组,并在若干组再进行比对。ftp:/ftp-igbmc.u-starsbg序列注释(核酸结构和功能的预侧分析)用生物信息学方法,高通量的注释基因组所有编码产物的生物学功能。序列注释原理:注释:从原始序列数据获得有用的生物学信息

20、。结构注释:在基因组DNA 中寻找基因和其他功能元件。功能注释:对序列做出功能解释。鉴定基因的方法:1、 各种杂交技术:建立在克隆基础上,不时与高通量分析。2、 给予计算机的搜寻方法:快速分析序列数据,鉴定潜在的基因。在不同模型或算法基础上建立的不同分析程序有其使用范围和相应的限制条件,因此最好对同一个问题多用几种分析方法。计算机诉法鉴定基因的三个要素:1、 signal sensor:局部的 motif ,如 promoter,donor site , accept site 等,倾向于拥有保守序列。2、 content sensor:通常是编码区,CpG 岛等。没有保守序列。3、 homo

21、logy searching :即寻找已知基因的匹配物。常用EST 数据库进行检索。对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性。检测 ORF:Six-frame translation :每个序列都有6 种可能的阅读框;鉴定6 种可能阅读框最长的ORF,并与蛋白质序列数据库相比较。不足之处:1、 ATG 可被 GUG,UUG 代替, ATG 也可出现在ORF 内部结果:无法预测或5端缺失。解决办法:结合其他信号进行鉴定如RBS 2、 TGA 除作为 stop codon,也可用于编码稀有碱基Aa 结果: 3端缺失解决办法

22、:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 7 页 - - - - - - - - - RNA 基因的预测:www.genetic.wustl.edu/eddy/tRNA . 注释工具及资源:1、 软件: ORF FINDER: www.ncbi.nlm.nih.gov/gorf/gorf.html 适用于大多数原核生物基因的预测。Genescan (概率方法http:/genes.mit.edu/GENSCANinfo.html)根据真核基因的生物结构,建立整体的

23、基因预测模型,通过设计基因序列模型。 。Fgenes(图式识别http:/genomin.sanger.ac.uk)结构信息学 -蛋白结构的概念模型DNA :重复片断、编码区、启动子、内含子/外含子、转录调控因子结合位点等信息。蛋白质序列:分子量、等电点、二级结构、三级结构、四级结构、膜蛋白的跨膜区域、酶的活性位点、以及蛋白质之间相互作用等结构和功能信息。利用已有的对生物大分子结构和功能特性的认识,用生物信息学的方法通过计算自模拟和计算来“预测”出这些信息或提供与之相关的辅助信息。折叠要素:氨基酸残基侧链性质、疏水作用、分子表面性质等蛋白质预测: PDB: http:/www.pdb.orgE

24、BI-MSD: http:/www.ebi.ac.uk/msd最主要的收集生物大分子三维结构的数据库。包括分辨率。 。 。蛋白质预测工具:ExPASv Compute Pi/Mw tool :计算蛋白质的等电点和分子量,对于碱性蛋白质,计算出的等电点可能不准确。PeptideMass:分析蛋白质在各种蛋白酶和化学试剂处理后的内切产物。SAPS:蛋白质序列统计分析,对提交的序列给出大量全面的分析数据,包括氨基酸组成统计、电荷分布分析,电荷聚集区域、高度疏水区域、跨膜区段等。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 7 页 - - - - - - - - -

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 技术总结

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁