《植物经典项目案例分析 - BGI.pdf》由会员分享,可在线阅读,更多相关《植物经典项目案例分析 - BGI.pdf(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、植物经典项目案例分析植物经典项目案例分析闵久梦2010-12-24烟草基因组项目 注释前期工作:1.了解基因组的组装结果 2.搜集物种的相关信息基因组特点:基因组的重复含量较高烟草基因组组装结果组装结果:contigN50=8548bpscaffold N50=96755bp注:这是补完洞之后的结果,这个结果显示烟草基因组组装结果不是很好,contig组装结果太短。这样如果一个基因长度大于9kbp,都可能存在这个基因被打断,没有组装起来。烟草基因组大小根据原始测序reads,统计17kmer的分布并作图,根据峰值位置,估计该物种基因组大小(G=R*(L-K+1)/D=kmer_num/pkde
2、pth):预计基因组大小为:2300M 实测基因组大小为:2470M。烟草的相关信息 拉丁语学名:Nicotiana tabacum 英语名字:tobacco 植物界被子植物门双子叶植物纲茄目茄科烟草属烟草植物基因组信息总结 1.组装结果不是很好 2.基因组较大 3.属于茄科植物,同科的植物基因组有 番茄(tomato),土豆(potato)4.客户能够提供烟草属的EST数据 5.烟草有测转录组数据注释分析-repeat注释 1.repeatmasker,proteinmask 2.基因组较大,denovo方法选用repeatmodeler方法 结果:从repeat注释结果可知:烟草基因组re
3、peat含量很高,组装起来的基因组repeat含量有70.29%。基因预测策略1.烟草基因组重复序列含量比较高,为了减少重复序列给denovo预测造成的影响,尽量将基因组中的repeat序列remask掉,所以将repeat注释出来的所有的repeat序列都remask掉,然后再进行denovo方法预测,选用预测软件及参数:1 Augustus tomato 2 FgeneSH-Nicotiana tabacum(注:组装结果也不是很好,所以用denovo预测结果可能也不是很准确,所以选择最准确的两个预测软件进行预测)2.利用烟草属的EST 进行EST预测,参数:-tophit 3 -alig
4、nrate 0.73.homolog预测:一定要用到同属的tomato和potato的蛋白序列,再选取其他物种的蛋白序列(我选择了:grape,papaya,poplar),参数:-align_rate 0.7 4.然后结果处理:通过denovo预测出来的结果取他们之前的交集5.基因整合:glean软件结果及评价用烟草的转录组数据对注释的基因集进行评价,评价结果:我们使用RNA-seq组装的数据对得到的基因集进行了覆盖度的评价(使用的比对软件为blastn,e值设置为1e-10)。比对结果中在identity0.9的条件下,对RNA-seq组装结果coverage0.9的比例35.9%,cov
5、erage0.5的比例为73.2%。所有coverage0.5的结果对RNA-seq组装数据的覆盖度为79.7%。我们将剩余的覆盖度小于50%的13044条RNA-seq组装数据结果使用blat软件比对回我们组装得到的烟草基因组上,比对结果中identity0.9且coverage0.5的共有3061条(占总数的23.5%),这部分的数据可以利用RNA-seq辅助基因注释的方法注释出基因补充到glean的结果中。剩余的9983条RNA-seq组装得到的数据大部分是有由于组装结果中没有把相应的转录区域拼接出来的原因造成的。甘蓝基因组 注释前期工作:1.了解基因组的组装结果 2.搜集物种的相关信息
6、基因组特点:有同源物种的基因组作为参考甘蓝基因组组装结果组装结果:contigN50=26828bpscaffold N50=905209bp注:这个组装结果已经达到基因组的精细图标准了,组装结果比较好甘蓝基因组大小根据原始测序reads,统计17kmer的分布并作图,根据峰值位置,估计该物种基因组大小(G=R*(L-K+1)/D=kmer_num/pkdepth):基因组大小应为655Mb。甘蓝的相关信息1.基本信息2.十字花科植物:拟南芥,白菜芸薹属植物:甘蓝和白菜和拟南芥和白菜的进化关系很近,特别是白菜。甘蓝植物基因组信息总结 1.组装结果很好 2.基因组大小一般 3.属于十字花科芸薹属
7、,同科的植物基因组有:拟南芥,同属的植物有:白菜 4.客户能够提供甘蓝的EST数据和芸薹属的EST数据,白菜的EST数据,芸薹属95K全长cDNA数据 5.甘蓝有测转录组数据注释分析-repeat注释 1.repeatmasker,proteinmask 2.基因组一般,denovo方法选用repeatscout和Piler方法 结果:从repeat注释结果可知:甘蓝基因组repeat含量有点高,组装起来的基因组repeat含量有58.14%。基因预测策略1.甘蓝基因组重复序列含量有点高,将repeat注释出来的已知种类分类的repeat序列都remask掉,然后再进行denovo方法预测,选
8、用预测软件及参数:1 Augustus arabidopsis2 GlimmerHMM-arabidopsis2.利用甘蓝属的EST 和芸薹属的95K的全长cDNA进行EST预测,参数:-tophit 3 -identity 0.95-alignrate 0.93.homolog预测:选择ATH,cucumber,grape,papaya,poplar,rice 的蛋白序列参数:-align_rate 0.75.基因整合:glean软件注:denovo方法选取了两种预测植物基因组比较准确的两种方法:Augutus和GlimmerHMMEST/cDNA预测和同源预测都选用和白菜注释时基本相同的参数结果及评价评价:1.利用甘蓝的转录组数据对甘蓝基因组的注释结果进行评价2.对比白菜基因组的注释结果