《eGPS 103 用户使用手册.docx》由会员分享,可在线阅读,更多相关《eGPS 103 用户使用手册.docx(65页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、EGPS 1.0.3 用户使用手册For desktop applicationLAST UPDATE ON 2019-9-12目录软件声明4前言4致谢4eGPS开发团队5版权5如何引用eGPS6如何寻求帮助7如何参与编制本手册7本手册编制人员(按姓氏拼音排序)7第一部分:快速上手8第一次使用eGPS8安装与打开eGPS8卸载eGPS8特性与支持9eGPS 的功能模块9技术支持与软件更新10软件错误报告10示例教程11介绍11分析之前的准备12查看Alignment的信息14查看circRNA从头鉴定结果16从基因到基因树(Gene to gene tree):22分析蛋白质组学数据24分析基
2、因组学数据26中性检验29估计进化距离29从多重序列联配构建进化树31从进化距离构建进化树32群体历史建模与序列模拟33运行命令行版本的eGPS34插件功能34第二部分:多组学分析37基因组学37VCF snapshot39VCF tools 过滤参数41VCF analysis44转录组学46circRNA viewer46RNA-seq数据分析47蛋白质组学47第三部分:数据的可视化与探索47eGPS tree viewer47Alignment viewer51Evolutionary distance viewer51在基因组浏览器中查看基因组区域与候选基因51第四部分:进化分析51进
3、化树构建的流程51从候选基因到进化分析53对多重序列进行联配54选择特定区域的DNA序列进行进化分析54基因组进化分析1: 利用全基因组多重序列联配构建物种树55基因组进化分析2: 利用VCF文件构建个体树57第五部分:群体历史建模与序列模拟57Build Model57Simulate59第六部分:插件开发60第七部分:软件更新记录61V1.0.161V 1.0.262V1.0.362附录:常见问题63词汇表63参考文献63手册编排说明:第一部分是软件声明,包含通用的说明。第二部分是快速上手,如果您第一次使用软件建议从第二部分开始看起,他包含了如何安装与使用软件,以及一些图文并茂的示例教程,
4、这些教程几乎包含了eGPS所拥有的完整的功能。其它部分是软件每个功能模块的详细说明,包含各个模块参数的意义以及输入输出文件的格式说明。软件声明前言随着二代测序价格的不断下降与三代、四代测序技术的进步,越来越多物种的全基因组信息被公开,同时基于测序的各个组学数据也不断涌现。同时进化生物学也得到了前所未有的的重视,常常被生物学家用来研究候选基因的功能与进化。无论任何领域,高效、稳定、安全、方便与被长期支持的软件必然发挥着越来越重要的作用。我们期望建立一个可以解决上述问题的一个软件平台,使这个软件不但利于使用而且利于开发,能够顺利衔接多组学和进化生物学的分析。致谢感谢中国科学院昆明动物研究所的张亚平
5、院士、姚永刚研究员、施鹏研究员、吕雪梅研究员以及先导项目办公室的所有成员为这一项目的顺利实施做出的努力并给予无数有效的建议。感谢中国科学院上海营养与健康所的徐书华研究员、汪思佳研究员及其学生、北京动物研究所的张勇研究员及其学生测试了软件并给予有效反馈。感谢中国科学院先导项目(evolutionary Genotype-Phenotype Systems biology,简称eGPS)的支持,为此这一程序特地命名为eGPS。感谢以下用户使用本软件,并提出有效反馈:eGPS 版本 来源建议 / 问题解决状态 1.0.0QQ群:云中月安装时,360通报安全隐患。请忽略或者关闭一些反病毒软件,eGPS
6、安全、无毒。1.0.0邮件:- Alignment viewer 加载大文件非常慢。重构了改个模块,使之能快速加载大文件。1.0.1QQ群:鸿在MAC OS 上使用时,启动脚本没有一定权限。我们提供了免安装绿色版本,双击即可运行。1.0.1QQ群:鸿导入PRO文件进行分析的时候,点击运行按钮没反应。一些数据不适合利用DEG-mass spectrum模块分析,若出现此情况则弹出一个通知框。 1.0.2QQ群:昆植周选择SNJ法建树时没反应已解决eGPS开发团队开发人员列表:虞达浪,董丽莉,严方琪,牟海龙,唐碧霞,杨潇,曾涛,周晴,高峰,王钟凰,郝子谦,亢红恩,郑毅,黄虹玮,魏煜张,潘伟,徐姚晨
7、,朱军伟,赵石磊,王慈然,王鹏宇,戴龙,李木山,蓝利,王祎玮,陈华,李亦学,符云新,邵振,鲍一明,赵方庆,陈洛南,张国庆,赵文明,李海鹏。开发单位列表:1、中国科学院计算生物学重点实验室,中国科学院马普学会计算生物学伙伴研究所,中国科学院上海营养与健康研究所,中国科学院上海生命科学研究院。2、生命与健康大数据中心,北京基因组研究所。3、中国科学院北京生命科学研究院。4、精准基因组医学重点实验室,北京基因组研究所。5、上海生物信息技术研究中心。6、中国科学院系统生物学重点实验室,中国科学院分子细胞科学卓越创新中心,中国科学院生物化学与细胞生物学研究所。7、Department of Biosta
8、tistics and Data Science, School of Public Health, University of Texas Health Science Center at Houston, Houston, Texas, USA.8、中国科学院生物化学与细胞生物学研究所。9、上海科技大学。10、中国科学院动物进化与遗传前沿交叉卓越创新中心。11、中国科学院大学。版权中国科学院计算生物学重点实验室,上海营养与健康研究所 (SINH),中国科学院拥有eGPS计算机版权。如有需要,请电子邮件联系。一旦你使用、下载或拷贝了eGPS软件,即视为您已经认同下述条款。如果您不同意下述条款
9、,请将eGPS软件从您计算机中删除或卸载。许可范围:这一条款认同您可以免费下载、拷贝、使用eGPS软件的权利。SINH拥有其它保留权利。您请勿:1、在超出该软件技术允许条件下使用该软件;2、请勿使用逆向工程技术、反编译或拆解该软件;3、请勿在违背当地法律法规时使用该软件;4、请勿将该软件出租;5、请勿将该软件作为商业服务提供并获取收益。备份:您可以按照自己的需要备份,或者随时从www.egps-software.org下载。拷贝:您可以将eGPS软件和此份版权一起拷贝给您认识或不认识的人。豁免权益:SINH不承担任何您因为拷贝、下载和使用eGPS软件而带来的您财产的任何损失。软件升级:您可以访
10、问www.egps-software.org获得eGPS软件的最新版。如何引用eGPSDalang Yu, Lili Dong, Fangqi Yan, Hailong Mu, Bixia Tang, Xiao Yang, et al. (2019) EGPS 1.0: Comprehensive software for multi-omic and evolutionary analyses. National Science Review, nwz079, https:/doi.org/10.1093/nsr/nwz079. 如何寻求帮助您可以给我们发送电子邮件。国内和华人用户可以扫描二
11、维码加入微信群、或者点击链接加入QQ群。加入QQ【eGPS使用交流群】点击:https:/ Changes的功能(审阅模式里的修订功能)进行修改,或者将修改、补充部分用颜色标示出来。然后将您的修改、补充部分,以及您的姓名,用电子邮件发给我们。为了便于我们整合,请勿将整个文档发给我们。本手册编制人员(按姓氏拼音排序)姓名电子邮件地址李海鹏牟海龙mhl_王祎玮严方琪虞达浪郑毅第一部分:快速上手第一次使用eGPS首先非常感谢您选择eGPS作为研究工具。本用户手册将为您提供eGPS桌面版的完整使用说明。eGPS的新用户可能希望阅读与跟随示例教程(walkthrough tutorial),该教程展示了
12、eGPS的主要功能与特性。同时您也可以通过查看eGPS的主要功能来快速定位您想要的功能模块。安装与打开eGPS 当用户在windows操作系统上使用的时候我们提供了相应32位和64位操作系统的安装包(exe格式)。用户仅需根据提示操作即可。同时我们还提供了绿色免安装版本,解压即可使用。在Mac OS操作系统上,我们提供了64位操作系统的绿色免安装版本,第一次使用请解压文件,然后右键点击打开。EGPS是绿色无毒软件,请放心使用。而在Ubuntu操作系统上,现阶段提供的eGPS为绿色免安装软件。用户只需要在官网下载然后再解压点击启动脚本即可所有的安装包,自带了所有的运行环境。最新的安装包都可以在w
13、ww.egps-software.org 下载到。安装注意事项:在选择安装路径时,请勿在路径中包含中文符号。卸载eGPS 在MAC OS与Ubuntu下,您只需要将软件所在的文件夹移除即可。在Windows下,您可以执行正常的卸载程序。例如在Window10下,设置应用程序与功能,找到eGPS,点击卸载即可。特性与支持eGPS 的功能模块现阶段eGPS拥有的完整功能性模块如下表所示。classification emphasis Module NameData type EvolutionSequence alignerMultiple sequence AlignerMultiple seq
14、uencesEvolutionSequence alignmentAlignment viewerMultiple sequence alignment(MSA)EvolutionEvolutionary distanceGenetic distance viewerGenetic distance(DIST)EvolutionEvolution phylogenyTree viewerMultiple sequence alignment(MSA)Phylogenetic tree(TREE)NEXUSGenetic distance(DIST)whole genome Multiple a
15、lignment format (MAF)Omic studyGenomicsVCF snapshotVariant Call Format (VCF)Omic studyGenomicsVCF toolsOmic studyGenomicsGenetic diversityOmic studyGenomicsNeutrality testOmic studyGenomicsPBS statisticOmic studyGenomicsHKA scoreOmic studyGenomicsFST statisticOmic studyTranscriptomicsDEG-RNAseqRNA e
16、xpression profile (rnaExp)Omic studyProteomicsDEG-massSpectrumProteomics expression matrix(PRO)EvolutionPopulation geneticsSimulatorPopulation history model (SIMU)Omic studyTranscriptomicscircRNA viewerCircular RNA list (LIST)EvolutionEvolution phylogenyGene to gene tree/EvolutionEvolutionary distan
17、ceGene to genetic distance/Evolutionsequences alignmentGene to alignment/技术支持与软件更新eGPS的最新版将会在http:/www.egps-software.org/ 中的eGPS desktop链接中发布。软件错误报告用户可以打开软件,点击菜单栏中的report bugs按钮,根据提示信息向开发团队提交错误。示例教程介绍本示例提供了几个简要的教程,解释了如何在eGPS中执行常见任务。每个教程都需要使用示例数据文件,这些文件可以在examples文件夹中找到。在教程中,使用以下约定:l 通过键盘输入的按键,我们用粗体表
18、示(例如,F4)。l 斜体表示的是菜单、窗体、选项卡等的名称(例如,File菜单)。l 斜体加粗体表示的是你能在菜单栏、工具栏等地方找到的命令(例如File菜单中的Import Data)。l 为了简洁起见,一系列菜单/按钮点击由管道符号(|)进行分隔以显示一系列命令指示(例如,File| Import Data表示您应当单机文件主菜单项,然后单击导入数据子菜单项)。eGPS主界面介绍eGPS主界面按照方便使用的形式进行设计,由菜单栏,工具栏(顶部,菜单栏下),状态栏(底部),分析面板(analysis panel, 左边与中间)和历史记录面板(history panel , 右边)组成。在分
19、析面板中,有一个特殊、唯一且锁定在主界面的数据面板(data panel),它可以分为三个区域:左侧的数据区域(data area),用于将文件拖入其中并显示已拖动的文件;中间的信息区域(information area)显示输入文件的信息;右侧的方法区域(method area),当导入数据后,会加入相应的按钮(eGPS将把合适的分析方法显示为按钮),按钮会显示分析的提示信息(tooltip)。除数据面板外,每个分析面板都包含一个功能模块,这些面板可以从主界面拖出来,便于用户比较结果和参数。当研究人员执行分析过程时,进度动画将在状态栏中显示。在程序正确完成后,结果文件夹的链接将添加到历史记录
20、面板以形成记录,这些记录允许注释和标记。历史记录面板可以记录用户执行的分析。这些记录会存储在本地,并且可以被移植到另一台装有eGPS软件的电脑上。当鼠标悬停在记录上时,会有提示信息显示在鼠标旁,这提供了丰富的信息,包括工具名称和运行参数。记录最初按日期分组,可以通过输入关键字进行搜索。当用户搜索时,历史记录会动态更新以显示匹配记录,并且在双击感兴趣的记录后,分析面板将显示为单独的选项卡。分析之前的准备导入数据用户有三种方式可以将数据导入eGPS :l 用户可以直接把将要分析的文件拖拽到数据区域(Data area)。l 利用工具栏的快捷按钮将数据导入l 点击File|Import Data 将
21、数据导入数据的信息与数据所适合的分析方法将展现在信息区域与方法区域。 如图展示的是一个拖入一系列VCF文件后,eGPS的响应情况。注意:用户一次只能打开同一类型的数据格式(data format)。如果拖入其它格式的文件,eGPS将会给出警告信息,并且不会把其它的文件加入到数据区域。如果您要更换数据文件,那么需要您点击左下角的Select all按钮,然后点击Delete Selected按钮。eGPS对数据进行如下分类:Module NameData type Data format Data exampleMultiple sequence AlignerMultiple sequence
22、sfasta/msf/clustalw/paml/mega/phylipmtCDNA.fasAlignment viewerMultiple sequence alignment(MSA)fasta/msf/clustalw/paml/mega/phylipmtCDNA.fasGenetic distance viewer Genetic distance(DIST)disttestGeneticDistance.distTree viewerMultiple sequence alignment(MSA)aligned fastamtCDNA.fasPhylogenetic tree(TRE
23、E)nwk/nhx/tre/etreeItreeV_ExampleTree.treNEXUSnex/nexusInfluenza_A_virus.nexGenetic distance(DIST)disttestGeneticDistance.distwhole genome Multiple alignment format (MAF)mafchr1.maf.gzVCF snapshotVariant Call Format (VCF)Uncompressed vcf / Gzip compressed vcf / Bgzip compressed vcfvcf.sample.test.ch
24、r20.vcfVCF toolsGenetic diversity Neutrality test PBS statistic HKA score FST statistic DEG-RNAseqRNA expression profile (rnaExp)rnaExpGDS2676.rnaExpDEG-massSpectrumProteomics expression matrix(PRO)proMAP_testing.proSimulator Population history model (SIMU)simusample.simucircRNA viewerCircular RNA l
25、ist (LIST)list1519652983250_out_jav.list设置参数eGPS的参数设置有两种方式,包括全局设置与每个模块特异的设置。全局设置通过点击Option | Preferences可以调出设置面板,或者使用快捷键Control + R。进化树的构建参数在程序的全局设置里面,而组学分析的参数大部分在各自的模块中。例如:想要从多重比对数据出发构建进化树,那么选择构建进化树的种类与参数可以通过点击Option | Preferences | Genetic distance 与Tree build method 进行设置。查看Alignment的信息1 首先将aligne
26、d fasta文件拖入到我们程序中,一共有三种方式将文件拖入:l 将文件拖入到数据区域,如下图所示;l 点击工具栏第一个按钮将fasta文件加入到程序中;l 点击File中Import Data将通过交互式文件选择框将fasta文件加入。2 当fasta文件被拖入后,我们会有两种方式进入Alignment viewer:2.1 直接点击右边View alignment按钮,如下图所示;2.2 点击Tools中的Alignment viewer;3 最后进入Alignment viewer视图显示数据如下图所示:3.1 数据会按块(block)进行显示,每个块所显示的序列数量与列的数量取决于当前
27、字体大小与窗口大小。可以通过工具栏上的按钮调整字体大小。 3.2 当鼠标悬停在碱基上时,屏幕上会显示当前碱基所对应的列数。点击每个碱基时,碱基的背景会变成红色。3.3 左边提供了碱基配色方案,配色效果如字符串所述。3.4 底下是一个显示每一列一致性(Consensus)的柱状图,鼠标停留时可以显示百分比。4 Alignment viewer数据输出:4.1 当数据显示到界面上时,我们可以单击保存按钮,将数据保存到我们本地磁盘上。4.2 我们支持以fasta/msf/clustalW/paml/mega/phylip/nexus格式输出MSA。查看circRNA从头鉴定结果1. circRNA
28、可视化模块有两种方式将数据导入到eGPS。(1)将circRNA文件(.list)拖入到我们程序中,点击可分析的方法进入circRNA viewer视图显示数据,如下图所示:(2)在不拖入任何文件的情况下,直接点击Tools中的circRNA viewer,circRNA viewer视图中不会显示任何数据。我们可以通过输入Job ID,然后单击Download circRNA按钮下载文件,如下图所示:在这个下载过程中,会同时下载两个文件(以_out_jav.list结尾和_out_library_length.list结尾的文件),同时将两个文件加入到我们程序中,右边会显示circRNA v
29、iewer视图:2. circRNA viewer视图控制:通过Filter parameters控制显示circRNA viewer的区间信息:通过Layout控制circRNA viewer视图显示数量,每页最多显示四个circRNA 数据,同时支持当前页数的切换操作,如下图所示:3. circRNA viewer视图显示:circRNA viewer支持锁定单个视图,如果视图中circRNA被锁住,则在切换当前页时,被锁定的circRNA不会被切换,如下图所示:在视图中的circRNA的起始位置之间,点击鼠标左键之后可以显示菜单栏。用户可以在基因组浏览器(如Ensembl,UCSC)中查
30、看该区间、构建近缘物种间同源序列的进化树,以及查看多重比对的联配。在circRNA viewer视图中通过鼠标移入环形circRNA区间片段,可以看到与线性circRNA对应的关系:4. circRNA viewer数据文件:circRNA viewer包含两种文件,当只拖入以_out_jav.list结尾的文件,点击跳转circRNA viewer视图时,不会显示环形circRNA:当只拖入以_out_library_length.list结尾的文件时,视图不会跳转;当两种文件都包含时,既会显示线性circRNA也会显示环形circRNA:5. circRNA viewer数据输出与打印:当
31、数据显示到界面上时,我们可以单击按钮,将数据保存到我们本地磁盘上或者将视图打印,如图所示:我们暂时支持两种保存文件格式: JPG、PNG、PDF以及矢量图SVG格式。从基因到基因树(Gene to gene tree):Gene to gene tree打开方式只有一种,通过点击Tools中的Gene to gene tree按钮,如下图所示:跳转到Gene to gene tree模块后,在Gene & species set选项卡中设置基因名或者染色体位置。当您需要设定基因树OUT的数量与种类时,可以点击Choose species set按钮,从全局设定中去设定。EGPS Desktop
32、 会从eGPS Cloud 或者Ensembl REST API 获取序列联配以 进行下游分析。如果用户输入的是Gene Symbol,eGPS Desktop会获取基因注释信息,因而我们提供了如下选项,使用户可以获取想要的基因组区域。最后点击Build gene tree创建进化树,同时在底部会显示当前创建进化树的进度信息:当创建完成后,其他操作与进化树相同,请参考进化树的操作,如下图所示:分析蛋白质组学数据导入正确后缀名的数据文件,点击合适分析方法DEG-mass spectrum进入分析模块。我们选择默认参数,点击Analysis按钮分析数据文件,进度条进度显示过后,可交互式的MA Pl
33、ot图出现在右侧区域。我们可以将鼠标放在上面,以显示每个点的信息。eGPS做到了可以让用户一键点击感兴趣的基因从而构建进化树。我们可以鼠标左键点击基因,然后选择Build gene tree 并点击即可构建一个进化树。同时用户也可以点击Open genome browser去基因组浏览器上查看这段区域。分析基因组学数据The Variant Call Format (VCF) 文件广泛用于生物信息学中以存储序列变异信息。但要预览文件,操纵(即过滤)并以用户友好的方式处理它并不容易,部分原因是文件很大。利用eGPS,研究人员可以使用“VCF snapshot”对文件进行预览;“VCF tools
34、”选定各种条件去过滤文件,以及其他合适的方法来分析文件,以获得每个滑动窗口的统计量(如遗传多样性统计和正选择)。eGPS支持以直观的方式选择个体并通过bed文件筛选特定的基因组区域。执行任务后,eGPS将显示交互式点图。查看VCF文件1. 将需要分析的VCF(Variant Call Format)文件(例如将chr22.100000.lines.vcf)用鼠标左键选中并拖拽进入eGPS左侧的“数据中心”中,如下图蓝色箭头所示,“数据中心”范围为图上红色方框范围,当鼠标旁边出现Link图标时,如图蓝色方框所示,松开鼠标即可。2. 如果您拖入的文件符合标准VCF文件规范,右侧的Suitable
35、methods中就会列出适用于该VCF文件的分析方法,VCF snapshot就在第一个,鼠标左键单击即可跳转至VCF snapshot具体界面。跳转完成,eGPS会根据默认的参数将文件读取并用表格的形式显示到界面上。过滤VCF文件点击VCF tools按钮即可VCF的过滤模块,eGPS提供了一系列的选项来帮助用户筛选variant记录。例如,如果用户只想保留SNP记录,那么可以在Variant Type/ Site ID Filter选项卡中选择Keep only SNPs勾选框。最后点击Save Filtered Data As 按钮即可。分析VCF文件同样点击相应的分析模块按钮即可,例如
36、选择Genetic diversity模块,然后计算所需要的统计量,默认是计算 theta和pi。我们利用默认参数,点击analysis按钮。结果如图所示:这里每个点的横坐标代表了基因组上的一个区域,纵坐标代表该区域计算后的统计量。用户也可以点击感兴趣的点去构建进化树。除了Genetic diversity模块,您也可以点击FST Statistic 模块分析群体遗传结构。请保持这个状态以演练中性检验的教程。中性检验用户可以使用eGPS对VCF文件以滑动窗口的形式对每个窗口计算相应的统计量。与上一个教程类似,您可以选择Neutrality Test 、HKA score,PBS value等模
37、块进行分析。估计进化距离1 利用成对距离估计进化距离在eGPS中,您可以通过计算每对序列之间核苷酸差异的比例来估计序列之间的进化距离。首先导入多重序列联配文件 (multiple sequence alignment file),然后配置计算参数(依次点击Option | Preferences | Genetic distance),选择p遗传距离,我们将其余选项设置为默认值。最后点击计算遗传距离按钮,如下图所示:左下角的进度条经过短暂的显示之后,距离计算结果将以网格形式显示在新窗口中。保持此窗口打开,以便我们可以比较后续步骤的结果。2 使用其他模型/方法计算和比较距离eGPS 还支持其它的
38、方法来计算和比较各个序列的距离。在这里,我们比较一下不同模型/方法计算后得到的进化距离。重复上面的操作步骤。但是在Model / Method下拉菜单而不是p-distance模型下选择Jukes / Cantor模型,让所有其他选项保持不变。再次,将结果窗口保持打开状态以进行比较。重复分析,这次在Model / Method下拉菜单中选择Tamura-Nei模型,让所有其他选项保持不变。再次,将结果窗口保持打开状态以进行比较。您现在可以比较三个打开的结果窗口,其中包含不同方法估计的距离,eGPS支持将每个选项卡拖拽出来,如下图所示。从多重序列联配构建进化树构建NJ树:在这个例子中,我们将使用
39、eGPS说明系统发生树重构的基础知识,并熟悉Tree Viewer窗口。首先导入多重序列联配文件,然后配置计算参数(依次点击Option | Preferences | Genetic distance),选择p遗传距离,再点击Tree build method选择Neighbor-Joining。我们将其余选项设置为默认值。最后点击Build tree按钮,如下图所示:左下角的进度条经过短暂的显示之后,进化树将显示在新窗口中。要选择分支,请使用鼠标左键单击它,选择之后你可以进行一系列的操作,例如增大叶子节点的标签、改变线条颜色等等。用户还可以改变树的布局,例如要变成环形布局可以单击Circu
40、lar layout。更多的使用方法详见第三部分中的eGPS tree viewer。从进化距离构建进化树首先导入进化距离文件,然后配置计算参数( 依次点击Option | Preferences | Tree build method )选择Neighbor-Joining。最后点击Build tree按钮,如下图所示:群体历史建模与序列模拟eGPS支持以可视化的方式建立群体历史模型,并根据群体历史模型产生模拟序列。点击Tools | Simulator打开功能模块,在Build Model子选项卡中的Tools Menu中拖拽出相应图标,建立相应的群体历史模型。Parameters处的参数
41、一般保持默认设置。点击子选项卡Simulator,因为我们最终构建的群体历史模型的当前时间点只有一个群体,所以在Sample information 一栏中出现一个群体,我们设置这个群体的抽样样本容量为15。其它参数设置为默认,点击 Run only 即可产生模拟数据,右侧的直方图会显示一些统计量的分布。用户也可以点击Run & Save data as 模拟数据并将数据保存。运行命令行版本的eGPS 当前命令行版的eGPS可以针对VCF文件计算一些统计量。例如我们要计算两个群体的FST,用户可以在各个安装了Oracle JRE 1.8的操作系统上运行。例如我们在windows10操作系统上运
42、行:可以在运行时加入-h参数,查看各个参数的说明。上面的示意图是一个典型的例子:-i1 参数后面的文件是第一个群体所包含的个体的名称;-i2 是第二个群体。设置SNP的最小质量值是20。Window size为500。Window step为100。-v后面是输入的vcf文件。通过-inb参数输入所包含的bed文件。命令行代码为:java -cp .eGPS_CL.jar egps.run.FST -i1 .sampleFiles_oneChromPerFilepop1_SampleIDs.txt -i2 .sampleFiles_oneChromPerFilepop2_SampleIDs.t
43、xt -mq 20 -s 500 -st 100 -v .sampleFiles_oneChromPerFilevcf.sample.test.chr20.vcf;.sampleFiles_oneChromPerFilevcf.sample.test.chr21.vcf;.sampleFiles_oneChromPerFilevcf.sample.test.chr22.vcf -inb .sampleFiles_oneChromPerFilesample.bed插件功能文件格式转换Convert File支持两种文件格式转换l 以emf结尾的文件转换成以maf结尾的文件l 以etree结尾的文
44、件转换成nwk结尾的文件1. 文件导入有两种方式点击Add files按钮可以选择文件(一个或者多个)导入,但是必须保证文件的格式与上一次导入的文件格式相同,如下图所示:也可以点击add directory导入整个文件夹中的文件,规则同上。2. 选择要转换的文件的格式,当我们拖入为emf文件时,只能够选择maf输出格式;如果我们拖入的文件时etree文件,只能选择nwk输出格式,如下图所示:3. 当文件被拖入后会自动在中间部分添加要转换的文件,如图所示:之后点击按钮设置输出文件目录。5. 通过点击Convert或者Convert All开始文件转换,其中Convert All是指所有被拖入的文
45、件都开始转换,而Convert只转换选择的文件,如图所示:6. 当转换文件的过程中,还没转换完成时,我们可以通过点击右侧的删除按钮,来终止转换,同时将该界面删除,如图所示:群体遗传结构重要参数FST计算示例启动eGPS, 确保安装路径中的config/plugin目录下包含swingFSTDemo.jar文件。依次点击Plugins | swingFSTDemo以进入功能模块。用户输入各个基因型 (genotype) 的数量之后,即可演示如何计算FST。现在eGPS最多支持三个群体,若要看两个群体的遗传结构则将第三个群体的输入值设为空即可。点击calculate按钮后即可显示结果。第二部分:多组学分析基因组学基因组的各个功能模块主要是针对VCF文件