人类群体遗传学.ppt

上传人:豆**** 文档编号:66735203 上传时间:2022-12-19 格式:PPT 页数:46 大小:1,018.01KB
返回 下载 相关 举报
人类群体遗传学.ppt_第1页
第1页 / 共46页
人类群体遗传学.ppt_第2页
第2页 / 共46页
点击查看更多>>
资源描述

《人类群体遗传学.ppt》由会员分享,可在线阅读,更多相关《人类群体遗传学.ppt(46页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、人类群体遗传学基本原理和分析方法 中科院-马普学会计算生物学伙伴研究所 中国科学院上海生命科学研究院研究生课程 人类群体遗传学徐书华 金 力序号日 期课程内容授课教师13月06日Hardy-Weinberg平衡检验原理及其应用徐书华23月13日遗传漂变效应及有效群体大小的估计徐书华33月20日进化树的构建方法及应用徐书华43月27日人群遗传结构分析(I)徐书华54月03日单倍型估计及连锁不平衡分析徐书华64月10日人群遗传结构分析(II)徐书华74月17日基因定位中的关联分析徐书华84月24日人类基因组中的连锁不平衡模式及标签位点的选择徐书华5月01日劳动节放假95月08日基因表达数据的分析方

2、法严 军105月15日Coalescence原理及应用李海鹏115月22日遗传多态性统计量,自然选择检验原理和方法徐书华125月29日全基因组基因型数据正选择检验方法唐 鲲136月05日法医学检测及分析方法李士林146月12日复习156月19日课程考试教育基地20072008学年第二学期学年第二学期人类群体遗传学分析方法人类群体遗传学分析方法课程表课程表上课时间:每周四上午10:00-11:50 上课地点:中科大厦4楼403室第7教室第五讲单倍型估计及连锁不平衡分析第五讲基本概念连锁不平衡原理及其统计量影响连锁不平衡的因素连锁不平衡在基因定位研究中的应用基本概念遗传多态性(Geneticpol

3、ymorphism)指在一个群体中,同时存在的两种或两种以上的指在一个群体中,同时存在的两种或两种以上的变异类型,每种类型的频率比较高,一般认为每变异类型,每种类型的频率比较高,一般认为每种变异型超过种变异型超过1 1即可定为多态现象,不足即可定为多态现象,不足1 1的的称为罕见变异型,或者称为突变(称为罕见变异型,或者称为突变(mutationmutation)。)。人类存在多种遗传多态现象(多态性),主要有人类存在多种遗传多态现象(多态性),主要有染色体多态性、酶和蛋白质多态性、抗原多态性染色体多态性、酶和蛋白质多态性、抗原多态性的的DNADNA多态性五类。多态性五类。单核苷酸多态性单核苷

4、酸多态性单核苷酸多态性(singlenucleotidepolymorphism(singlenucleotidepolymorphism,SNPSNP,读作,读作“snip”),snip”),主要是指在基因组水平上由单个核苷酸的变异所引起的主要是指在基因组水平上由单个核苷酸的变异所引起的DNADNA序列多态性。它是人类可遗传的变异中最常见的一种。占所有已序列多态性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的知多态性的90%90%以上。以上。SNPSNP在人类基因组中广泛存在,平均每在人类基因组中广泛存在,平均每300300600600个碱基对中就有个碱基对中就有1 1个,估计其总

5、数可达个,估计其总数可达10001000万个甚至更多。万个甚至更多。SNPSNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换碱基的转换(transition)(transition)或颠换或颠换(transversiontransversion)所引起,也可由碱基所引起,也可由碱基的插入或缺失所致。但通常所说的的插入或缺失所致。但通常所说的SNPSNP并不包括后两种情况。并不包括后两种情况。理论上讲,理论上讲,SNPSNP既可能是二等位多态性,也可能是既可能是二等位多态性,也可能是3 3个或个或4 4个等位多个等位多态性

6、,但实际上,后两者非常少见,几乎可以忽略。因此,通常所说态性,但实际上,后两者非常少见,几乎可以忽略。因此,通常所说的的SNPSNP都是二等位多态性的(都是二等位多态性的(biallelicbiallelic)。)。genotypehaplotype相邻位点的等位基因在同一条染色体上的排列方式From genotype to haplotypesampleSNP1SNP21ATCG2ATCC3TTCG4ATCC5AACG6ATGGgenotypehaplotypephased dataunphased dataReconstructhaplotypefromgenotypeCLARKS alg

7、orithm?Parsimony-based methodParsimony-based methodE-M algorithm?Likelihood-based methodLikelihood-based methodPHASE algorithm?BayesianBayesian methodmethodReconstruct haplotype at individual level0010011101010100000111110101101111111111010010000101010111011000011101100000110111001111100001000100111

8、010101000001111101011011111111110100100001010101110110000111011000001101110011111000010001011111110101111101000101001000000001000011000001101000111001100000000111111001100010001000000010111111101011111010001010010000000010000110000011010001110011000000001111110011000100010000000101111010101000001111

9、101011010111111110101001001000000000101000000000000001100110001000100000001011110101010000011111010110101111111101010010010000000001010000000000000011001100010001000001101011101010100000111110101101011111111010011110001111111010100000110001111110011000100010000011010111010101000001111101011010111111

10、110100111100011111110101000001100011111100110001000100000001001110101010000011111010110111111111101001000010101011101100001110100000010000011000100110110010011101010100000111110101101111111111010010000101010111011000011101000000100000110001001101111010011010101000001111101011011111111110100000011000

11、000000000010000000100000100110001000100000110100110101010000011111010110111111111101000000110000000000000100000001000001001100010001000000010111101010100000111110101101011111111010010100100000000010100000000000000100000110001001101100101111010101000001111101011010111111110100101001000000000101000000

12、000000001000001100010011011110100000000000000000000000000000000000010000000110000000000000100000001000001001100010001000001101000000000000000000000000000000000000100000001100000000000001000000010000010011000100010000000000000000000000000000000000000000000001010000011000000000000010000000100000100110

13、001000100000000000000000000000000000000000000000000010100000110000000000000100000001000001001100010001000001101011101010100000111110101101011111111010010100100000000010100000000000000100000110001001101111010111010101000001111101011010111111110100101001000000000101000000000000001000001100010011011000

14、000000000000000000000000000000000000010001000001101000111001010000000000010000011000100110110000000000000000000000000000000000000000100010000011010001110010100000000000100000110001001101100101111111010111110100010100100000000100001100000110100011100110000000000000100110001000100000001011111110101111

15、101000101001000000001000011000001101000111001100000000000001001100010001000000000000000000000000000000000000000000000101000001100000000000001000000110000010011000100010000000000000000000000000000000000000000000001010000011000000000000010000001100000100110001000100000110101000000000000000000000000000

16、000000010000000110000000000000100000001000001011100111110000101101010000000000000000000000000000000000100000001100000000000001000000010000010111001111100001000000000000000000000000000000000000000001010111100011111110101010000000100000100110001000100000000000000000000000000000000000000000000010101111

17、000111111101010100000001000001001100010001000000000000000000000000000000000000000000000101000001100000000000001000000010000010011000100010000000000000000000000000000000000000000000001010000011000000000000010000000100000100110001000100000001011111110101111101000101001000000001000011000001101000111001

18、100000001000001001100010001000000010111111101011111010001010010000000010000110000011010001110011000000010000010011000100010000011010111111010111110100010100100000000100001101001000000000100000001100000000110010011010000110110101111110101111101000101001000000001000011010010000000001000000011000000001

19、100100110100001100000000000000000000000000000000000000000101011110001111111010100001110000000110111001111100001000000000000000000000000000000000000000001010111100011111110101000011100000001101110011111000010001011111110101111101000101001000000001000010000110000000000000100000001000001011100111110000

20、100010111111101011111010001010010000000010000100001100000000000001000000010000010111001111100001000101111111010111110100010100100000000100001100000110100011100101000000000001000001100010011011001011111110101111101000101001000000001000011000001101000111001010000000000010000011000100110111101011111101

21、011111010001010010000000010000110000011010001110010100000000000100000110001001101111010111111010111110100010100100000000100001100000110100011100101000000000001000001100010011011000000000000000000000000000000000000000010000000110000000000000100000001000001001100010001000000000000000000000000000000000

22、000000000000100000001100000000000001000000010000010011000100010000011010111111010111110100010100100000000100001100000110100011100101000000000001000001100010011011110101111110101111101000101001000000001000011000001101000111001010000000000010000011000100110110000000000000000000000000000000000000000101

23、011110001111111010101000000010000010011000100010000000000000000000000000000000000000000000001010111100011111110101010000000100000100110001000100000000000000000000000000000000000000000000010101000001101000111001010000000000010000011000100110110000000000000000000000000000000000000000101010000011010001

24、110010100000000000100000110001001101100101111111010111110100010100100000000100001110000011111110101000000000011111110010011010001010001011111110101111101000101001000000001000011100000111111101010000000000111111100100110100010101101011101010100000111110101101011111111010010100100000000010100000000000

25、000100000110001001101111010111010101000001111101011010111111110100101001000000000101000000000000001000001100010011011软件演示PHASE&fastPHASEPHASEinputfileformatPositionandLocustypeGenotypecodingExampleofinputfileformatPHASEinputfileformat40407 7P1354957613621676137061561370828313958290P13549576136216761

26、3706156137082831395829014224204143127161422420414312716SSSSSSSSSSSSSSYRI-1YRI-1TGTTCTTTGTTCTT CCCCCCCCCCCCCCYRI-2YRI-2TCCCCTTTCCCCTT TCCCCTTTCCCCTTYRI-3YRI-3TGCTCTTTGCTCTT CCCTCCTCCCTCCTYRI-4YRI-4TGTCCTTTGTCCTT CCCCCCTCCCCCCTYRI-5YRI-5TGCTCTTTGCTCTT CCCCCCCCCCCCCCYRI-6YRI-6TCTCCTTTCTCCTT TCCCCCTTCCC

27、CCTAlterativeformat-foption-noptionOptionsaffectingruntimesandaccuracy-XoptionRunningPHASEmultipletimes-xoptionRunningseveraldatasetsfromthesameinputfile-DoptionLinkageDisequilibrium(LD)LDisthenon-randomassociationofallelesatadjacentloci.WhenaparticularalleleatonelocusisfoundWhenaparticularalleleato

28、nelocusisfoundtogetheronthesamechromosomewithatogetheronthesamechromosomewithaspecificalleleatasecondlocusmoreoftenspecificalleleatasecondlocusmoreoftenthanexpectedifthelociweresegregatingthanexpectedifthelociweresegregatingindependentlyinapopulationthelociareinindependentlyinapopulationthelociarein

29、disequilibrium.disequilibrium.连锁不平衡LinkageDisequilibrium(LD)F是相邻位点之间的非随机关联,当一个位点上的某一等位基因与另一位点上的等位基因共同出现的概率大于随机组合的假设,则这两个位点之间存在连锁不平衡。CommonlyusedLDmeasurements(LewontinLewontin,1964)1964)(Hill&Weir,(Hill&Weir,1994)1994)Independencetest(p-value)B1B1B2B2A1A1a ab ba+ba+bA2A2c cd dc+dc+da+ca+cb+db+dn n2x

30、2 table testFisher exact testPopulationrecombinationrate(4Ner)4Ner:populationrecombinationparameter.Alternativelydenotedby,4NecorCr rororc cistherecombinationrateacrosstheistherecombinationrateacrosstheregionofinterest;regionofinterest;NeNeistheeffectivepopulationsize.istheeffectivepopulationsize.Hu

31、manrecombinationrate=4Ner=4x10000 x1cM/Mb=4x10000 x0.01M/1000000bp=0.0004/bp=0.4/kb4NerandLD4NerasanapproachforquantifyingLD;ThisapproachavoidsrelianceonpairwisemeasuresofLD,whichdifferfrommarkertomarker,andfacilitatescomparisonsbetweenregions.LD统计量的性质-|D|D|D|具有很好的性质,当且仅当两个具有很好的性质,当且仅当两个SNPSNP位点没有被重

32、组打位点没有被重组打断,或者没有因为回复突变、基因转换等因素影响的情况下,断,或者没有因为回复突变、基因转换等因素影响的情况下,|D|=1|D|=1。在这种情况下,对于两个位点来说,从样本中最多。在这种情况下,对于两个位点来说,从样本中最多能观察到三种单倍型。能观察到三种单倍型。|D|=1|D|=1被认为是完全的连锁不平衡被认为是完全的连锁不平衡(completeLDcompleteLD)。)。|D|1|D|1/3的连锁不平衡水平,使得样本量的增加不超过3倍,可以作为“实用连锁不平衡”的底线。LD统计量的性质-p-value因为p值严重依赖于样本量的大小,所以不能用来比较使用了不同样本量的研究

33、结果。另外,只要样本量足够大,很容易获得统计上显著的p值,比如r2=0.01的连锁不平衡在1,000条染色体的样本可以是统计上极其显著的。再者,尽管实际的连锁不平衡远远低于可用于基因定位中有用的水平,p值却往往让人误以为连锁不平衡延伸了很远,因为连锁平衡的微弱偏离可以在相当长的距离上观察到。总的说来,对于两两位点之间连锁不平衡的度量方式,r2是一个比较好的统计量,尤其是在关联分析的框架下来考虑的话,r2可以直接与功效联系起来。影响连锁不平衡的因素分子水平分子水平重组率的不均匀分布重组率的不均匀分布 突变率的不均匀分布突变率的不均匀分布基因转换基因转换 群体水平群体水平遗传漂变遗传漂变群体扩张群

34、体扩张人群混合和人群迁移人群混合和人群迁移群体结构群体结构自然选择自然选择重组率的不均匀分布已知重组率在整个基因组中的变化超过一个数量级。已知重组率在整个基因组中的变化超过一个数量级。因为连锁不平衡的衰减主要就是重组驱动的,所以因为连锁不平衡的衰减主要就是重组驱动的,所以连锁不平衡将以相反的比例随着重组率的波动而波连锁不平衡将以相反的比例随着重组率的波动而波动。甚至有人认为重组有可能绝大多数集中在基因动。甚至有人认为重组有可能绝大多数集中在基因组中一些局部的组中一些局部的“重组热点重组热点”(hotspothotspot),从而其),从而其他地方重组很少发生。按照这个观点,连锁不平衡他地方重组

35、很少发生。按照这个观点,连锁不平衡将在非重组区表现得很强,而在将在非重组区表现得很强,而在“重组热点重组热点”表现表现得很弱。尽管已经有实验研究提示这种情况确实在得很弱。尽管已经有实验研究提示这种情况确实在基因组的某些区域发生,但是基因组的某些区域发生,但是“重组热点重组热点”的一般的一般性,性,“热点热点”区域以内和以外的重组频率差异程度区域以内和以外的重组频率差异程度以及这些区域的长度分布都有待于进一步的研究和以及这些区域的长度分布都有待于进一步的研究和确认。确认。突变率的不均匀分布基因组中的某些区域比如在CpG二核苷酸位置附近,单核苷酸多态位点可能具有较高的突变率,从而与附近的位点表现出

36、很弱的连锁不平衡甚至没有连锁不平衡,尽管实际上没有重组发生。基因转换在减数分裂期间,如果发生基因转换事件,一般是一条染色体的一个短片段转移到另外一条染色体上。这个效应等价于近距离发生了两次重组事件,于是连锁不平衡被打断,如同重组和回复突变产生的效果。已经有一些研究表明,人类基因组中基因转换的发生非常频繁,对紧密连锁位点之间的连锁不平衡产生重要影响。遗传漂变遗传漂变描述的是在有限群体大小的群体中,由于遗传漂变描述的是在有限群体大小的群体中,由于每一代的随机取样造成的基因频率和单倍型频率的每一代的随机取样造成的基因频率和单倍型频率的改变的现象,这是群体遗传学中见到的最普遍的现改变的现象,这是群体遗

37、传学中见到的最普遍的现象。等位基因频率的变化在小群体中尤其迅速,一象。等位基因频率的变化在小群体中尤其迅速,一般来说,在一个稳定的(而不是增长的)小群体中,般来说,在一个稳定的(而不是增长的)小群体中,随着单倍型的不断丢失,遗传漂变会使连锁不平衡随着单倍型的不断丢失,遗传漂变会使连锁不平衡不断增强。不断增强。群体扩张群体的快速增长或群体扩张因为削弱了遗传漂变的影响,从而导致连锁不平衡的增强。人群混合和人群迁移人群之间的混合或者迁移可以产生新的连锁不平衡。人群之间的混合或者迁移可以产生新的连锁不平衡。在人群混合之初,连锁不平衡的强度与混合人群之在人群混合之初,连锁不平衡的强度与混合人群之间等位基

38、因频率的差异相关或成比例,而与位点之间等位基因频率的差异相关或成比例,而与位点之间的物理距离无关。在随后的世代中,相互不连锁间的物理距离无关。在随后的世代中,相互不连锁的位点之间的的位点之间的“伪伪”连锁不平衡很快消失,而那些连锁不平衡很快消失,而那些连锁的相邻位点之间的连锁不平衡因为重组会逐渐连锁的相邻位点之间的连锁不平衡因为重组会逐渐衰减,但是相对要缓慢得多。理论上来讲,在混合衰减,但是相对要缓慢得多。理论上来讲,在混合人群中进行基因定位可以使标记的需要量大大减少。人群中进行基因定位可以使标记的需要量大大减少。已经有研究试图在一些混合人群,比如美国黑人当已经有研究试图在一些混合人群,比如美

39、国黑人当中用这种策略进行基因定位。中用这种策略进行基因定位。群体结构一般人群认为群体结构各方面的特征都会对连锁不平衡产生影响。在人类群体中,人群的分化有可能对连锁不平衡的模式有相当重要的影响,然而我们有限的知识大多来自于模式生物的研究。在拟南芥(Arabidopsis)的研究提示,在没有降低遗传变异的条件下,极度的近交(inbreeding)可以产生高水平的连锁不平衡。自然选择一般认为自然选择可以通过两条途径影响连锁不平衡,第一一般认为自然选择可以通过两条途径影响连锁不平衡,第一个途径是个途径是“搭乘效应搭乘效应”(hitchhikingeffecthitchhikingeffect),在这种

40、情况),在这种情况下,受选择位点附近的整个单倍型可能一起被快速地下,受选择位点附近的整个单倍型可能一起被快速地“扫荡扫荡”(sweepsweep)到很高的频率甚至固定下来。对有害突变)到很高的频率甚至固定下来。对有害突变(deleteriousvariantsdeleteriousvariants)的选择同样可能导致连锁不平衡的)的选择同样可能导致连锁不平衡的增加,尽管效应一般会很微弱,因为有害的单倍型会被从群增加,尽管效应一般会很微弱,因为有害的单倍型会被从群体中体中“扫除扫除”,从而使单倍型的种类减少。自然选择影响连,从而使单倍型的种类减少。自然选择影响连锁不平衡的第二个途径是通过上位选择

41、(锁不平衡的第二个途径是通过上位选择(epistaticepistatic selectionselection)使得同一条染色体上两个位点或多个位点的等位)使得同一条染色体上两个位点或多个位点的等位基因组合在一起,共同传递。这种形式的选择导致不同位点基因组合在一起,共同传递。这种形式的选择导致不同位点特定的等位基因之间的关联。尽管这是果蝇遗传学历史上导特定的等位基因之间的关联。尽管这是果蝇遗传学历史上导致连锁不平衡研究的主要动机,因为可以通过连锁不平衡的致连锁不平衡研究的主要动机,因为可以通过连锁不平衡的研究检测(上位)自然选择是否发生,然而,在人类基因组研究检测(上位)自然选择是否发生,然

42、而,在人类基因组中,还没有迹象表明这种形式的选择影响连锁不平衡的强度中,还没有迹象表明这种形式的选择影响连锁不平衡的强度和模式。和模式。软件演示ArlequinHaploview常用软件PHASE&fastPHASEhttp:/http:/stephenslab.uchicago.edu/software.htmlstephenslab.uchicago.edu/software.htmlArlequin3.01http:/anthro.unige.ch/software/arlequin/http:/anthro.unige.ch/software/arlequin/Haploviewhttp:/http:/www.broad.mit.edu/mpg/haploviewwww.broad.mit.edu/mpg/haploview/练习利用HapMap数据分析连锁不平衡;http:/www.hapmap.orghttp:/www.hapmap.org

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁