《针对不同数据构建基因调控网络.pdf》由会员分享,可在线阅读,更多相关《针对不同数据构建基因调控网络.pdf(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 谨以此论文献给我的家人和我的导师 刘树霞 针对不同数据构建基因调控网络 摘要 近几年构建并分析基因调控网络是生物数学领域重要的研究方向之一, 这是因为基因调控网络可以直观地呈现出细胞内部基因间的调控关系以及因果关系,人们利用不同的方法分析基因表达数据构建基因调控网络以获得基因之间的相互关系。本文针对两种数据用两种不同的方法构建基因调控网络,并通过对所构建的网络的分析得出新的结论。 本文的主要内容: 第一部分,基于互信息理论构建基因的无向调控网。首先,对正常肾组织和患癌肾组织的基因表达数据采用 Wilcoxon 秩和检验的方法得到候选基因,然后建立这些基因的互信息网络,再根据两个网络的七个统计
2、量的关系筛选出 22 个结构关键基因,这些基因被预测为与肾癌有关的致病敏感基因,而且这 22 个基因中有 10 个已被证实与肾癌的发生和发展有关。同时,根据 GO(Gene Ontology)数据库中的基因注释预测了在肾癌的发展中起到重要作用的五条路径, 其中三条已被证实。 第二部分,提出一种基于逻辑分析理论构建基因调控网络的新方法,并将这种方法应用到酵母的敲除 263 个基因的基因敲除数据中构建基因调控网, 通过将所构建的网络和文献中已经得到的网络进行对比来说明方法的有效性, 进而通过对推测出的网络的注释预测出 10 个转录因子的 105 个靶基因和调控器。 关键词:互信息;基因调控网;逻辑
3、关系 Construct gene networks from different data Abstract Recently, construction and analysis of gene regulatory networks, which canintuitively represent the causality or regulatory relationships between genes, is very important field in Bio-mathematics. Diverse methods have been offered to set up gen
4、e regulatory networks from different data to mine the interactions between genes. In this paper, two methods are used to construct gene networks from two different data, and new conclusions are obtained through analysis of these networks. The main contents of this paper are as follows. Section one.
5、Construct undirected gene regulatory networks based on mutual information theory. The Wilcoxon rank-sum test method is used on gene expression profiles in kidney tissues with and without cancer to obtain candidate genes. Thereby, mutual information networks of these genes are constructed. Twenty two
6、 structural key genes are selected based on the seven statistics of the two networks, and these genes are predicted as potential pathogenic key genes of kidney cancer. Empirical studies on cancer show that ten of these genes are closely related to the formation and development of kidney cancer. Furt
7、hermore, five pathways are predicted that they may play an important role of development of kidney cancer based on GO annotation, and three of them have been confirmed. Section two. A new method which is based on logic analysis is presented to construct gene regulatory network. The method is validat
8、ed on the gene expression profiles of 263 Saccharomyces cerevisiae deletion mutants. The power of this method is demonstrated by comparing the deduced logic network with gene network reported in the previous studies. Furthermore, interpretation of the deduced logic network leads to the prediction of
9、 105 targets and regulators of 10 transcription factors. Key words: mutual information; gene regulatory network; logic relationship 目录 1 引言 . 1 1.1 研究现状 . 1 1.2 本文的主要研究工作 . 3 2 基于网络结构分析挖掘疾病敏感基因 . 4 2.1 基本概念 . 4 2.1.1 互信息基础 . 4 2.1.2 秩和检验 . 5 2.1.3 复杂网络七个统计量 . 6 2.2 网络的构建以及结构关键基因的筛选 . 7 2.2.1 数据来源 .
10、7 2.2.2 数据处理 . 7 2.2.3 构建基因网络 . 8 2.2.4 选取结构关键基因 . 12 2.3 有关注释 . 13 3 对于敲除单个基因的数据建立基因调控网络 . 16 3.1 方法 . 16 3.1.1 基本概念 . 16 3.1.2 构建网络模型 . 18 3.2 数据实验 . 21 3.2.1 应用于酵母的大规模的基因表达数据 . 21 3.2.2 验证方法的有效性 . 22 3.2.3 阈值的选取 . 30 3.3 结论 . 32 参考文献 . 34 致谢 . 45 个人简历、攻硕期间发表的学术论文与研究成果 . 46 11 引言 1.1 研究现状 “系统生物学 (
11、systems biology)”一词最早出现在 Zieglgansberger W1于 1993年发表的一篇关于神经疾病的研究论文的摘要中。 早在此之前, 贝塔朗菲在 1952年发表的抗体系统论中将系统生物学称为 “机体生物学 ”,将 “机体生物学 ”中的“机体 ”描述为 “整体 ”或 “系统 ”,并阐述了用数学模型、系统论来研究生物学2。尽管系统生物学的概念由来已久,但是直至人类基因组计划开启之后,产生了大量的数据,才使得对整个生物系统的研究成为可能。为了研究这些数据,科学家将数学、物理、计算机科学理论大量引入生物学研究中,从此使生物学从分子生物学时代正式的进入了系统生物学的时代3。 近年
12、来,基于基因微阵列技术、蛋白质芯片技术、基因测序技术等高通量技术的不断发展,涌现了大量的生物数据,如何从这些数据中获得有价值的信息是当前生物学研究面临的一个重要的问题, 对于这个问题的不断探索使得系统生物学得到迅速发展。 最先把 DNA 测序自动化的 Leroy Hood 博士对系统生物学曾有以下的描述:系统生物学是将生物系统中 DNA、 RNA、蛋白质以及三者彼此之间的交互作用等资料加以整合,并运用这些资料去建立出数学计量模型,以期能掌握所有生物基因与组织间的关系及运作4。 Klipp5认为系统生物学是研究宏观水平上生物表型和微观水平上的分子之间相互作用的逻辑关系的科学。 通过数学模型分析数
13、据构建生物网络(如基因调控网络、代谢网络、蛋白质相互作用网络等) ,从而获得基因之间的调控关系或者蛋白质之间的交互作用,是近年系统生物学的研究方式之一。 遵循这一研究方式,产生了众多构建基因调控网络(以下简称基因网络)的数学模型,其中对于基因表达数据构建基因网络的方法有布尔网络方法、贝叶斯网络方法、微分方程模型方法、线性回归法等6-9。信息论中的互信息也同样被用作构建基因调控网10,其基本思想是利用互信息理论分析基因表达数据,构建基因的互信息网络,并且通过设定阈值的方式来构建基因网络。 Bowers 等11提出了基于系统发生谱的逻辑分析( LAPP)方法,文中首先分析了三个蛋白质之间所有可能的
14、逻辑关系,并用实例说明这些逻辑关系的存在性。然后,提出了2用不确定性系数分析蛋白质系统发生谱数据获得蛋白质之间的逻辑关系构建蛋白质逻辑网络。 Ruan12将 LAPP 的方法应用到了结肠癌的基因表达数据中获得了致癌基因间的逻辑关系,并且获得了揭示结肠癌致病机理的代谢路径。 对于敲除单个基因的基因表达数据, 科学家们也设计出了很多方法构建基因网络13-23,例如, Peer 等13把每个基因的表达水平看成是随机变量,用节点表示变量,节点间的有向边代表依赖关系,用贝叶斯方法处理数据构建贝叶斯网络来模拟基因网络,并用 d-分离法来判断变量间是否是条件独立。 Wangner 等14用有向无环图来模拟基
15、因网络,基因即为图的节点,根据敲除一个基因对另外的基因是否有影响来说明两个基因(节点)之间是否是可达的,进而获得这些基因的可达矩阵,根据可达矩阵反推出有向无环图(即基因网络) ,文章还证明了有相同的可达矩阵的图中有唯一一个图是最精简的(边数最少) 。 Kyoda 等15提出了基于差异的调控识别( DBRF)的方法,用有向标记图来表示基因网络,使得基因间的激励抑制关系在图中直观地展现。 Dojer,N 等16用动态贝叶斯网来模拟基因网络。以上这些构建网络的方法均是研究了两个基因之间的相互作用,而Carter 等23使用了矩阵分解的方法来研究三个基因之间的关系,其具体是将敲除两个基因的表达数据和敲
16、除一个基 因的表达数据组成的矩阵分解成 “影响矩阵 ”和 “基因型矩阵 ”, 通过对这两个矩阵的分析得到基因间的调控作用从而预测出与酵母的细丝状生长表现型有关的基因。 但是如何对于敲除单个基因的基因表达数据(以下称为敲除数据)研究三个基因之间的逻辑关系?本文就这一问题基于逻辑分析提出新的数学模型,构建了基因网络。 Barabasi24和 Albert 在 1999 年发表的文章中研究了现实中的网络(万维网、社交网络等)的度分布情况,提出了构造无标度网络的模型,并且说明许多现实中的网络都是无标度网络,这一研究成果揭开了复杂网络研究的序幕。 Albert25将复杂网络理论应用到生物网络中,将复杂网
17、络中的概念平移到了生物网络中;Barabasi26于 2004 年验证了生物网络的无标度性。无标度网络的度分布为幂律分布,网络中的大部分点的度都很小,只有一部分节点的连接度很大,这些节点一般被称为中心, 在基因网络中这些中心节点所对应的基因已被验证是生物体生存的必需基因,这些必需基因的变异或者缺失会导致疾病的产生27-29。同时在生物网络中也发现了模块,这与复杂网络中模块的概念相吻合,同种生物的基因网3络模块不因实验条件的改变而改变,并且不同生物的网络有不同的模块,所以这些模块不仅可以用来理解生物、发现生物过程,还可以用来进行分类30,31。这些说明了复杂网络的方法已成为系统生物学研究的重要的
18、工具之一, 通过对生物网络的拓扑结构和动力学属性进行分析以提取具有普适性的生物规律也成为近年来又一种研究方式。 构建基因调控网络的目的是从基因表达数据中获得基因与基因之间相互作用网络32,从而从整体上揭示与生命过程相关的全局或局部网络特征,对基因调控网络的研究有利于了解生命活动在分子水平上的机制, 有利于研究细胞功能和生命过程,并为探索人类疾病的根源提供方向。 在众多的疾病当中,癌症是死亡率最高的疾病,根据癌症的发病特点,普遍认为癌症的产生是基因突变的结果, 但是在人体众多的基因中哪些基因的突变会导致疾病是困扰人们的一大难题。为了攻克这一难题,近年来科学家提出众多的方法来挖掘与癌症的发生发展相
19、关的基因33-38,其中包括层次聚类法33,34、递归决策树法35、逻辑分析法12等。本文采用统计方法筛选出表达差异基因,用互信息理论构建这些基因的基因网络, 并将复杂网络结构参数理论应用于基因网络分析来探寻癌症的致病基因。 1.2 本文的主要研究工作 本文主要分为三个部分: 第一部分为引言部分,介绍了近年来系统生物学的发展状况、构建基因网络的研究现状和本文的主要研究工作。 第二部分, 基于互信息构建基因网络的方法对患癌肾组织和正常肾组织的基因表达数据进行分析,构建了患癌肾组织的基因网络和正常肾组织的基因网络,进而根据复杂网络的统计参数的计算来获得两个基因网络的结构参数值, 通过对比参数值的差
20、异挖掘出致病的敏感基因。 第三部分,基于逻辑分析的方法,对敲除数据构建基因网络,并对得出的网络与实际生物实验所得出的基因调控网络进行比较, 通过比较得出的规律预测出10 个转录因子的靶基因和调控器。 42 基于网络结构分析挖掘疾病敏感基因 2.1 基本概念 2.1.1 互信息基础 互信息 (;)I XY是两个随机变量 X 和 Y 之间依赖关系的度量39,可被用来构建基因网络10。 对于离散型随机变量 X 来说, 自熵 ()HX是对随机变量 X 的平均不确定性的度量,定义如下: () ()log()xXHX px px, (2-1) 其中, ()p x 表示随机变量 X 的概率密度函数。 考虑两
21、个离散型随机变量 X 和 Y ,它们的联合概率密度函数为 (, )p xy,其边际概率密度函数分别为 ()p x 和 ()p y ,那么它们的联合熵 (,)HXY定义为39: ,( ,) (,)log(,)xXyYHXY pxy pxy, (2-2) 互信息 (;)I XY的定义为: ,(, )(;) (,)log() ()xXyYp xyIXY pxyp xpy, (2-3) 由式 (2-1)-(2-3)可得: (;) () () (,)I XY HX HY HXY , (2-4) 互信息值的高低表示变量之间的依赖程度的大小, 互信息值越高表示变量之间的依赖性越强。当 X 和 Y 相互独立时
22、, (;) 0IXY 。在实际应用时,当互信息值小于一定的阈值时就认为两个变量是相互独立的。 如果变量的分布符合正态分布,那么熵的计算可以用高斯核密度来计算40,其定义公式如下: 122111 1() exp()()2(2 )NTijijinnjp xxxCxNC, (2-5) 5其中, C 表示的是随机变量 X 的协方差矩阵, C 表示的是协方差矩阵的行列式。N 表示的是样本量, n表示的是变量的数量。 从而可以得到信息熵的简易算法 1221()log(2) log(2)2nnH XeC eC, (2-6) 那么,由 (2-4)和 (2-6)得互信息可以按照以下的方式计算 () ()1(;)
23、 log2(,)CX CYIXYCXY , (2-7) 这可以用来简化互信息的计算, 如果随机变量的分布未知或者不符合正态分布,那么在计算互信息时可以将数据离散化用频率来代替概率进行计算。 2.1.2 秩和检验 秩和检验41是一种非参数假设检验,优点就 在于其不受总体分布类型的限制,适用范围较广。两组样本的非参数检验一般采用的是 Wilcoxon 秩和检验,其基本思想是:若检验的假设成立,那么两组样本的秩和不应该相差太大。基本步骤如下所示, 1) 提出原假设0H 和备择假设1H ; 首先设两个独立样本为:第一组样本总体 X 的样本容量为1n ,第二组样本总体 Y 的样本容量为2n ,且12nn
24、 。 将总体 X 中的样本观察值按照从小到大的次序编号排列成112 nX XX L ,称iX 的足标 i为iX 的秩,11, 2, ,in L 。 当其中几个数据相等时,那么这几个数据的秩取平均值41。x 和y 分别表示样本 X 和Y 对应的观测值的均值,那么原假设和备择假设分别为 0y:xH 1y:xH 2)合并两组样本进行统一编秩,求样本数最小组的秩和作为检验统计量T41; 将12nn 个样本值放在一起, 按自小到大的次序排列, 求出每个样本值的秩,然后将属于第一个样本总体 X 的样本值的秩相加,设为1T ,称为第一个样本的秩6和,由于12nn ,所以一般把1T 作为统计量 T 。 3)根
25、据给定的显著性水平 查检验界值表,通过比较得出结论。 当样本量比较小(1225nn)时,把 T 值和查秩和检验表中显著性水平 下的临界值(左右临界值分别为1C 、2C )相比较,若12CTC ,则两样本差异不显著即接受原假设,如果1TC 或 2TC ,则表明两样本差异显著,拒绝原假设。 当样本含量较大(1225nn)时,检验统计量 T 近似服从正态分布,所以可以应用正态近似法作 Z 检验,或者做卡方检验对 p 值进行估计。根据 p 值的大小做出统计结论,如果 p ,则在显著性水平 下拒绝原假设;如果 p ,则在显著性水平 下接受原假设。 2.1.3 复杂网络七个统计量42 假设 (, )GVE
26、 是一个复杂网络图,点集为 1, 2, ,VN L ,边集为 E . 定义 1(平均路径长度 L )42网络中两个节点 i和 j 之间的距离定义为连接这两个节点的最短路径上的边数,表示为ijd .那么网络 G 的平均路径长度定义为任意两个节点之间的距离的平均值,即 2(1)ijijLdNN. 定义 2(平均聚类系数 C )42假设网络中的节点 i有ik 条边将它和其他节点相连,这ik 个点就是节点 i的邻居,那么这些节点之间实际存在的边数iE 和总的可能的边数 (1)2iikk 之比就定义为节点 i的聚类系数,记为iC ,即2(1)iiiiECkk. 定义 3(平均度 D )42无向网络中节点
27、 i的度定义为与该节点连接的其他节点的数目。那么平均度就是指所有节点的度的平均值。 定义 4(平均核数 K )42一个图的 k 核是指反复去掉度小于或等于 k 的节点后,所剩下的子图。若一个节点存在于 k -核,而在 (1)k 核中被移除,那么此节7点的核数为 k 。所有节点核数的平均值就是这个图的平均核数。 定义 5(平均介数 B )42一个节点的介数衡量了通过网络中该节点的最短路径的数目, 节点介数定义为网络中所有最短路径中经过该节点的路径的数目占最短路径总数的比例,平均介数即指所有节点介数的平均值。 定义 6(模块度 Q)42在一个复杂网络中,社团的概念是描述网络结构的很好的工具。 Ne
28、wman43提出了模块度来度量网络拥有社团的概率。假设网络 G 拥有k 个社团12,.kGG GL 定义对称矩阵 ()ij k kEe , 其中ije 是社团 ,ijGG之间的边数与网络中总的边数的比值。模块度就可以定义为:2()iiiiiiQQ ea , 其中ia 是 E 的第 i行所有元素的和,表示与社团iG 相连的边数与网络总边数的比值。 定义 7(非孤立点所占比例 R )42所有与其他顶点有边相连的点的个数占总顶点数的比例。 2.2 网络的构建以及结构关键基因的筛选 2.2.1 数据来源 本章实验所采用的数据来自 NCBI 数据库,其实验编号为 GSE15641。这些数据包含了 23
29、个正常肾组织的基因表达数据和 32 个患癌肾组织的基因表达数据。本章将这 23 个正常肾组织的样本组称为正常组, 32 个患癌肾组织的样本组称为疾病组。 2.2.2 数据处理 i)初步处理。由于原始数据中包含着 22283 个探针,这些探针中有部分不同的探针对应着相同的基因,为了使基因和探针相互对应形成双射便于研究,所以需要对这些数据进行对应化。对应化的方法就是当多个探针对应一个基因时,把这些探针的表达数据的平均值作为该基因的表达值。 ii)初步处理后得到了 12735 个基因的基因表达数据。要构建这些基因的网络是个庞大的工作,通过观察发现,有些基因的表达数据在正常组和疾病组中差8异不大,所以
30、这些基因是致病基因的可能性比较小。结合最初的目标(寻找致病敏感基因)和上述观察到的特点,采用秩和检验的方法来筛选出表达差异显著性比较明显的基因作为致病的候选基因。所选择的显著水平为810 ,其可信度大于 99%。通过秩和检验选出差异显著的 220 个基因作为候选基因。 2.2.3 构建基因网络 第一步:数据离散化。 如果将基因的表达水平看成是随机变量, 那么每个基因对应的数据可以看成是一个 n维向量( n表示样本量) ,其中的分量表示该基因在各样本中的表达值。对于本章所采用的数据,其频数分布直方图大致如下所示 可以看出其不满足已知的任何分布,所以在求概率的时候就用频率来拟合概率。为了计算频率需
31、要将数据进行离散化。通常离散化的方法是将基因表达数据(这里所用的数据均为 p 值)映射为 0、 1 值。但是这种离散化过于粗糙,本章所采取的离散化方法如下, a) 将 0,0.05 十等分,同样的将 0.05,1 十等分。对每个区间从左到右进行编号1, 2, , 20L ; b) 将基因表达数据中的 p 值映射到这些区间中,并以区间号来代替原来的 p值; 这样就完成了对原始数据的离散化,这种更加细化的离散方法比映射到 0、1 值9离散法更准确的反映原始数据的分布情况。 第二步:构建基因网络并计算结构统计量。 用互信息公式处理离散化后的数据计算出基因间的互信息值,得到了两个(正常组和疾病组)互信
32、息矩阵220 220()ijCc ,其中ijc 表示基因 i和基因 j 之间的互信息值,显然这是一个对称矩阵。为了能够比较两个矩阵中互信息值的差异性,需要将互信息矩阵中的元素进行标准化处理,标准化的方法为 ijijcmcM m,其中 m 和 M 是互信息值中的最小值和最大值。于是 得到了两个(正常组和疾病组) 加权完全图, 每条边的权重是标准化后的互信息值 (以下将其简称为互信息) ,为了能够构造基因网络,设定阈值是必要的,即当互信息小于给定的阈值时就说明两个基因之间没有关系, 大于给定的阈值时说明两个基因间存在着某种调控关系。因此,给定一个阈值就能得到两个(正常组和疾病组)基因网络,然后就可
33、以分析这两个网络的拓扑结构特征,即计算网络的七个统计量。 本章从 0,1 区间上每隔 0.01 取定一个阈值,一共取了 81 个阈值,每个阈值都能获得一对网络从而计算统计量的值, 于是就得到了基因网络的统计量与阈值的关系图(图 2-1 所示) ,其中横轴表示阈值,纵轴表示的是统计量的值。且黑色实线表示的是疾病网络,红色虚线表示的是正常网络。 10图 2-1. 以上分别为平均介数、平均度、平均路径长度、平均聚类系数、模块度、非孤立点所占比例、以及平均核数关于阈值的变化图。 11a)正常阶段的基因网络 b)肾癌阶段的基因网络 图 2-2.关于 220 个候选基因在阈值为 0.6 时正常组和疾病组的
34、基因网络。这两个网络很明显的一个特征是正常组的网络是稀疏的,而疾病组的网络是相当稠密的。再对比一下这两个网络可以看到 (a)中的孤立点在 (b)就变为非孤立的,实际上也有一些 (b)中的孤立点在 (a)中是非孤立的,只是它们在图中不太明显。 122.2.4 选取结构关键基因 由于生物网络结构能显示其分子功能,所以网络结构差异反映对应的分子功能差异。通过上面的观察可以发现七个统计量的差异能反映两个网络的结构差异,从上图可以看到这种差异在很大的阈值范围内都比较明显。这也反映了正常肾组织和患癌肾组织基因间的相互关系的改变。在癌症的发生发展过程中,基因层面的改变(主要是基因间调控关系的改变)是肿瘤产生
35、的重要原因之一,那么基因在正常肾组织和患癌肾组织中相互关系改变较大的基因(即结构差异较大的基因)更有可能对疾病的产生造成影响。因此,本章提出了以下的选取致病敏感基因的方法。 显示每个基因与其他基因相互关系的结构参数有度、核数、介数、 聚类系数。通过图 1 可以看到,对于肾癌来说,基因结构差异明显的统计量为度、核数和介数,那么在本章便采用这三个统计量作为选取结构关键基因的参数。具体的做法为(以度为例), 1)在给定的阈值下可以得到正常和疾病 两个互信息网,每个基因在两个网中都有一个度,这两个度的差值称为度差,度差的绝对值记为 AOD。同时,可以得到核数差的绝对值 AOK,介数差的绝对值 AOB
36、等; 2)上述建网的过程中已经建立了 81 对网,那么按照上一步的做法,对于每个基因就可以得到 81 个 AOD,然后将这 81 个 AOD 相加,得到的值称为绝对度差。因为没有准确的方法来确定阈值,所以这种选择结构关键基因的方法能在一定程度上反映基因相互关系的改变。 3)将绝对度差从大到小排序,选出前 30 个基因作为度关键基因。同理能选出介数关键基因和核数关键基因各 30 个,最后的结构关键基因是度、核数和介数关键基因的交集。 通过上述的方法,本章选出 22 个结构关键基因作为肾癌的致病敏感基因。具体的基因如下表所示, 13Gene Symbol GENE_ID Gene Symbol G
37、ENE_ID C3 718 SLC22A8 9376SERPINH1 871 SCO2 9997COL5A2 1290 EXOC3 11336CSTA 1475 PCDH17 27253DNASE1 1773 C7orf68 29923EIF4EBP1 1978 MS4A4A 51338ENO2 2026 RHCG 51458FABP5 2171 ADAP2 55803PYGL 5836 TRIB3 57761SPAG4 6676 LPCAT1 79888VWF 7450 RALYL 1380462.3 有关注释 本章根据正常肾组织和患癌肾组织的基因表达数据基于互信息理论建立基因网络,并且分析
38、两个网络的结构参数差异,进而根据结构参数选出结构差异显著的 22 个基因作为结构关键基因。由于基因网络结构的差异反映基因的功能差异,所以可以认为这些结构关键基因与肾癌的形成和发展有着密切的关系,即可作为肾癌的致病敏感基因。 通过已有的文献得知这些基因全部与各类癌症的形成和发展有关44-77,其中 10 个基因 (C3、 SERPINH1、 EIF4EBP1、 ENO2、 FABP5、VWF、 SCO2、 C7orf68、 RHCG、 RALYL)已被验证与肾癌的形成和发展有着密切的关系。 例如,基因 C3 参与 21 种生物过程,如补体的激活、免疫应答、正调控血管的生成、正调控葡萄糖的运输、正
39、调控血管内皮生长因子的生成等,并且 C3诱导 VEGF(血管内皮生长因子)的表达44。 C7orf68 是一种缺氧诱导基因68,在缺氧的情况下,它能被诱导产生一 种正调控细胞增殖的蛋白质。 Zhou 等75证实了血管内皮生长因子( VEGF)在恶性的肾癌肿瘤细胞中是高度表达的,当恶性肿瘤快速生长的时候,对于氧气和营养成分的需求变的越来越紧迫,这就导致血管的生长相对滞后,从而不可避免的使肿瘤组织的中心部分变的缺血缺氧,这个过程会刺激基因 C3 和基因 C7orf68 的表达来产生血管内皮生长因子和促进细胞增殖的蛋白质,从而生成血管缓解缺氧的压力。 SERPINH1 (Hsp47)与一种胶原质的形
40、成密切相关,这种胶原质是细胞外基质的重要组成部分,研究表明 Hsp47 的高度表达与肾脏纤维化密切相关 ,其已经表 2-1 潜在的致病关键基因列表(红色的基因是经查证与各类癌症的发生发展有关的基因,蓝色的是与肾癌有关的基因) 14成为肾脏纤维化的预防和治疗的目标之一, 它在肿瘤的转移中同样起到重要的作用可以作为人类肾癌细胞转移情况的指标45,47。 真核翻译起始因子 4E 结合蛋白 1( EIF4EBP1)与大多数高度恶化肿瘤的形成有关,它所参与的生物过程有胰岛素受体信号转导通路、蛋白质复合物装配的负调控、翻译起始的负调控、有丝分裂细胞周期和激活 TOR 信号传导级联等,而 TOR 信号代表一
41、种新的相互作用,这种作用能促进蛋白质的合成、细胞的生长和肾肿瘤的形成52。 FABP5 是一种生成脂肪酸结合蛋白的基因, 这种蛋白在肾癌组织的脂肪分化过程中分泌上调56。 VWF 的高度表达会导致肾小球血栓的形成,从而导致肾功能的损坏, VWF 的高度表达是内皮细胞的生物合成的增加、由辐射诱导引起的内皮细胞数量的增加等导致的结果, 所以它将是评估肾癌细胞转移风险的新工具60。 从 GO 数据库中,能够得到基因和基因产物的细胞组分、分子功能和其参与的生物学过程。通过这个数据库得到了上述 22 个致病敏感基因的众多的信息,包括它们参与 98 种生物学过程、拥有 49 种分子功能和 35 种分子组分
42、。通过对这些信息进行具体的分析,得到 5 种参与基因较多的生物学过程(表 2-2) 。 表 2-2 生物学过程表(含有至少 3 个基因) 生物学过程 参与的基因 GO:0006006 : 葡萄糖代谢过程 ENO2、 FABP5、 PYGL GO:0007155 : 细胞粘附 CSTA、 VWF、 PCDH17 GO:0015758 : 葡萄糖转运 C3、 FABP5、 TRIB3 GO:0006629 : 脂质代谢过程 C3、 FABP5、 TRIB3、 LPCAT1 GO:0044281 : 小分子代谢过程 ENO2、 PYGL、 TRIB3、 LPCAT1 从表 2-2 可以得到,有 3
43、个基因参与葡萄糖代谢过程、 4 个基因参与脂质代谢过程、 4 个基因参与小分子代谢过程。细胞粘附和葡萄糖转运过程也包含了 3个基因。由于参与的致病敏感基因较多,所以可以预测这些生物学过程的改变与肾癌的发生和发展有密切的关系。 Tun 等57证明肾癌的产生以三种主要的生物学过程的转变为特征,代谢路径就是其中之一。而上表中得到的 5 种过程中有 3种是属于代谢路径。 Allory 等78研究了 L1 细胞粘附分子在肾癌细胞中都是过表达的。同时,近期有研究79表明葡萄糖转运和代谢的异常导致了肿瘤细胞的治疗之后的复发,这种特点致使癌症的预后较差。这些结果说明了细胞粘附和葡萄15糖转运的生物学过程的转变
44、在肾癌的发展过程中也起到了重要的作用。 下一步的研究可以更多的关注参与上述路径的未知基因 (PYGL、 PCDH17、 TRIB3、LPCAT1、 CSTA),探究它们是否可以作为肾癌的预后和化疗的靶标。例如基因TRIB3,它可以刺激细胞的增殖、促进泛素化并且降解参与细胞周期调控的蛋白质,它在肿瘤和癌症初期的细 胞系中表达量会增加73,除此之外,基因 TRIB3还调控细胞的生长、分化和新陈代谢73。综上所述,基因 TRIB3 可以作为肾癌的新的预后检测因子和异化转移的预测靶标。 此外,在只与癌症有关的基因中,基因 COL5A2 的产物是胶原质 V,这种胶原质不仅参与细胞粘附和细胞生 长过程,还是间质细胞外基质( ECM)的重要组成成分,而 ECM 参与大量的生物学过程,如细胞的形态、增殖、迁移和分化等。因此基因 COL5A2 的表达量的变化会间接的影响着这些生物学过程的进行。同时实验发现在人类的乳腺癌和大肠癌以及肾早衰症中基因 COL5A2 是高度表达的48, 所以该基因的变异可能会导致肾癌的发生。 DNASE1 (酶号: 3.1.21.1)是一种 DNA(脱氧核糖核酸)水解酶,它的活性分布优先分布在人类的肾脏中,它在癌组织中活性增加时会导致细胞分化51, 从而促进肿瘤的生长。 基因 S