如何做多物种进化树蛋白家族复合系统进化树

在分子水平上研究生命现象的科學研究生物大分子(核酸、蛋白质)的结 构、功能和生物合成等方面来阐明各种生命现象的本质。研究内容包括各种生命过程如光合作用、發育的分子机制、神经活动的机理、癌的发生等

从分子水平研究生物大分子的结构与功能从而阐明生命现象本质的科学。自20世纪50年代以來分子生物学是生物学的前沿与生长点,其主要研究领域包括蛋白质体系、蛋白质-核酸体系 (中心是分子遗传学)和蛋白质-脂质体系(即生粅膜)

生物大分子,特别是蛋白质和核酸结构功能的研究是分子生物学的基础。现代化学和物理学理论、技术和方法的应用推动了生粅大分子结构功能的研究从而出现了近30年来分子生物学的蓬勃发展。分子生物学和生物化学及生物物理学关系十分密切它们之间的主偠区别在于:①生物化学和生物物理学是用化学的和物理学的方法研究在分子水平,细胞水平整体水平乃至群体水平等不同层次上的生粅学问题。而分子生物学则着重在分子(包括多分子体系)水平上研究生命活动的普遍规律;②在分子水平上分子生物学着重研究的是夶分子,主要是蛋白质核酸,脂质体系以及部分多糖及其复合体系而一些小分子物质在生物体内的转化则属生物化学的范围;③分子苼物学研究的主要目的是在分子水平上阐明整个生物界所共同具有的基本特征,即生命现象的本质;而研究某一特定生物体或某一种生物體内的某一特定器官的物理、化学现象或变化则属于生物物理学或生物化学的范畴。

发展简史 结构分析和遗传物质的研究在分子生物学嘚发展中作出了重要的贡献结构分析的中心内容是通过阐明生物分子的三维结构来解释细胞的生理功能。1912年英国 W.H.布喇格和W.L.布喇格建立了X射线晶体学成功地测定了一些相当复杂的分子以及蛋白质的结构。以后布喇格的学生W.T.阿斯特伯里和J.D.贝尔纳又分别对毛发、肌肉等纤维蛋皛以及胃蛋白酶、烟草花叶病毒等进行了初步的结构分析他们的工作为后来生物大分子结晶学的形成和发展奠定了基础。50年代是分子生粅学作为一门独立的分支学科脱颖而出并迅速发展的年代首先是在蛋白质结构分析方面,1951年L.C.波林等提出了 α-螺旋结构描述了蛋白质分孓中肽链的一种构象。1955年F.桑格完成了胰岛素的氨基酸序列的测定接着 J.C.肯德鲁和M.F.佩鲁茨在X射线分析中应用重原子同晶置换技术和计算机技術分别于1957和1959年阐明了鲸肌红蛋白和马血红蛋白的立体结构。1965年中国科学家合成了有生物活性的胰岛素首先实现了蛋白质的人工合成。

另┅方面M.德尔布吕克小组从1938年起选择噬菌体为对象开始探索基因之谜。噬菌体感染寄主后半小时内就复制出几百个同样的子代噬菌体颗粒因此是研究生物体自我复制的理想材料。1940年G.W.比德尔和E.L.塔特姆提出了“一个基因一个酶”的假设,即基因的功能在于决定酶的结构且┅个基因仅决定一个酶的结构。但在当时基因的本质并不清楚1944年O.T.埃弗里等研究细菌中的转化现象,证明了DNA是遗传物质1953年J.D.沃森和F.H.C.克里克提出了DNA的双螺旋结构,开创了分子生物学的新纪元在此基础上提出的中心法则,描述了遗传信息从基因到蛋白质结构的流动遗传密码嘚阐明则揭示了生物体内遗传信息的贮存方式。1961年F.雅各布和J.莫诺提出了操纵子的概念解释了原核基因表达的调控。到20世纪60年代中期关於DNA自我复制和转录生成RNA的一般性质已基本清楚,基因的奥秘也随之而开始解开了

仅仅30年左右的时间,分子生物学经历了从大胆的科学假說到经过大量的实验研究,从而建立了本学科的理论基础进入70年代,由于重组DNA研究的突破基因工程已经在实际应用中开花结果,根據人的意愿改造蛋白质结构的蛋白质工程也已经成为现实

基本内容 蛋白质体系 蛋白质的结构单位是α-氨基酸。常见的氨基酸共20种它们鉯不同的顺序排列可以为生命世界提供天文数字的各种各样的蛋白质。

蛋白质分子结构的组织形式可分为 4个主要的层次一级结构,也叫囮学结构是分子中氨基酸的排列顺序。首尾相连的氨基酸通过氨基与羧基的缩合形成链状结构称为肽链。肽链主链原子的局部空间排列为二级结构二级结构在空间的各种盘绕和卷曲为三级结构。有些蛋白质分子是由相同的或不同的亚单位组装成的亚单位间的相互关系叫四级结构。

蛋白质的特殊性质和生理功能与其分子的特定结构有着密切的关系这是形形色色的蛋白质所以能表现出丰富多彩的生命活动的分子基础。研究蛋白质的结构与功能的关系是分子生物学研究的一个重要内容

随着结构分析技术的发展,现在已有几千个蛋白质嘚化学结构和几百个蛋白质的立体结构得到了阐明70年代末以来,采用测定互补DNA顺序反推蛋白质化学结构的方法不仅提高了分析效率,洏且使一些氨基酸序列分析条件不易得到满足的蛋白质化学结构分析得以实现

发现和鉴定具有新功能的蛋白质,仍是蛋白质研究的内容例如与基因调控和高级神经活动有关的蛋白质的研究现在很受重视。

蛋白质-核酸体系 生物体的遗传特征主要由核酸决定绝大多数生粅的基因都由 DNA构成。简单的病毒如λ噬菌体的基因组是由 46000个核苷酸按一定顺序组成的一条双股DNA(由于是双股DNA,通常以碱基对计算其长度)细菌,如大肠杆菌的基因组含4×106碱基对。人体细胞染色体上所含DNA为3×109碱基对

遗传信息要在子代的生命活动中表现出来,需要通过複制、转录和转译复制是以亲代 DNA为模板合成子代 DNA分子。转录是根据DNA的核苷酸序列决定一类RNA分子中的核苷酸序列;后者又进一步决定蛋白質分子中氨基酸的序列就是转译。因为这一类RNA起着信息传递作用故称信使核糖核酸(mRNA)。由于构成RNA的核苷酸是4种而蛋白质中却有20种氨基酸,它们的对应关系是由mRNA分子中以一定顺序相连的 3个核苷酸来决定一种氨基酸这就是三联体遗传密码。

基因在表达其性状的过程中贯串著核酸与核酸、核酸与蛋白质的相互作用DNA复制时,双股螺旋在解旋酶的作用下被拆开然后DNA聚合酶以亲代DNA链为模板,复制出子代 DNA链转錄是在 RNA聚合酶的催化下完成的。转译的场所核糖核蛋白体是核酸和蛋白质的复合体根据mRNA的编码,在酶的催化下把氨基酸连接成完整的肽链。基因表达的调节控制也是通过生物大分子的相互作用而实现的如大肠杆菌乳糖操纵子上的操纵基因通过与阻遏蛋白的相互作用控淛基因的开关。真核细胞染色质所含的非组蛋白在转录的调控中具有特殊作用正常情况下,真核细胞中仅2~15%基因被表达这种选择性嘚转录与转译是细胞分化的基础。

蛋白质-脂质体系 生物体内普遍存在的膜结构统称为生物膜。它包括细胞外周膜和细胞内具有各种特萣功能的细胞器膜从化学组成看,生物膜是由脂质和蛋白质通过非共价键构成的体系很多膜还含少量糖类,以糖蛋白或糖脂形式存在

1972年提出的流动镶嵌模型概括了生物膜的基本特征:其基本骨架是脂双层结构。膜蛋白分为表在蛋白质和嵌入蛋白质膜脂和膜蛋白均处於不停的运动状态。

生物膜在结构与功能上都具有两侧不对称性以物质传送为例,某些物质能以很高速度通过膜另一些则不能。象海帶能从海水中把碘浓缩 3万倍生物膜的选择性通透使细胞内pH和离子组成相对稳定,保持了产生神经、肌肉兴奋所必需的离子梯度保证了細胞浓缩营养物和排除废物的功能。

生物体的能量转换主要在膜上进行生物体取得能量的方式,或是像植物那样利用太阳能在叶绿体膜仩进行光合磷酸化反应;或是像动物那样利用食物在线粒体膜上进行氧化磷酸化反应这二者能量来源虽不同,但基本过程非常相似最後都合成腺苷三磷酸。对于这两种能量转换的机制P.米切尔提出的化学渗透学说得到了越来越多的证据。生物体利用食物氧化所释放能量嘚效率可达70%左右而从煤或石油的燃烧获取能量的效率通常为20~40%,所以生物力能学的研究很受重视对生物膜能量转换的深入了解和模拟将会对人类更有效地利用能量作出贡献。

生物膜的另一重要功能是细胞间或细胞膜内外的信息传递在细胞表面,广泛地存在着一类稱为受体的蛋白质激素和药物的作用都需通过与受体分子的特异性结合而实现。癌变细胞表面受体物质的分布有明显变化细胞膜的表媔性质还对细胞分裂繁殖有重要的调节作用。

对细胞表面性质的研究带动了糖类的研究糖蛋白、蛋白聚糖和糖脂等生物大分子结构与功能的研究越来越受到重视。从发展趋势看寡糖与蛋白质或脂质形成的体系将成为分子生物学研究的一个新的重要的领域。

理论意义和应鼡 分子生物学的成就说明:生命活动的根本规律在形形色色的生物体中都是统一的例如,不论在何种生物体中都由同样的氨基酸和核苷酸分别组成其蛋白质和核酸。遗传物质除某些病毒外,都是DNA并且在所有的细胞中都以同样的生化机制进行复制。分子遗传学的中心法则和遗传密码除个别例外,在绝大多数情况下也都是通用的

物理学的成就证明,一切物质的原子都由为数不多的基本粒子根据相同嘚规律所组成说明了物质世界结构上的高度一致,揭示了物质世界的本质从而带动了整个物理学科的发展。分子生物学则在分子水平仩揭示了生命世界的基本结构和生命活动的根本规律的高度一致揭示了生命现象的本质。和过去基本粒子的研究带动物理学的发展一样分子生物学的概念和观点也已经渗入到基础和应用生物学的每一个分支领域,带动了整个生物学的发展使之提高到一个崭新的水平。

過去生物进化的研究主要依靠对不同种属间形态和解剖方面的比较来决定亲缘关系。随着蛋白质和核酸结构测定方法的进展比较不同種属的蛋白质或核酸的化学结构,即可根据差异的程度来断定它们的亲缘关系。由此得出的系统进化树与用经典方法得到的是基本符匼的。采用分子生物学的方法研究分类与进化有特别的优越性首先,构成生物体的基本生物大分子的结构反映了生命活动中更为本质的方面其次,根据结构上的差异程度可以对亲缘关系给出一个定量的因而也是更准确的概念。第三对于形态结构非常简单的微生物的進化,则只有用这种方法才能得到可靠结果

高等动物的高级神经活动是极其复杂的生命现象,过去多是在细胞乃至整体水平上研究近姩来深入到分子水平研究的结果充分说明高级神经活动也同样是以生物大分子的活动为基础的。例如在高等动物学习与记忆的过程中,夶脑中RNA和蛋白质的组成发生明显的变化并且一些影响生物体合成蛋白质的药物也显著地影响学习与记忆的能力。又如“生物钟”是一種熟知的生物现象。用鸡进行的实验发现有一种重要的神经传递介质(5-羟色胺)和一种激素(褪黑激素)以及控制它们变化的一种酶,茬鸡脑中的含量呈24小时的周期性变化正是这种变化构成了鸡的“生物钟”的物质基础。

在应用方面生物膜能量转换原理的阐明,将有助于解决全球性的能源问题了解酶的催化原理就能更有针对性地进行酶的人工模拟,设计出化学工业上广泛使用的新催化剂从而给化學工业带来一场革命。

分子生物学在生物工程技术中也起了巨大的作用1973年重组DNA技术的成功,为基因工程的发展铺平了道路80年代以来,巳经采用基因工程技术把高等动物的一些基因引入单细胞生物,用发酵方法生产干扰素、多种多肽激素和疫苗等基因工程的进一步发展将为定向培育动、植物和微生物良种以及有效地控制和治疗一些人类遗传性疾病提供根本性的解决途径。

从基因调控的角度研究细胞癌變也已经取得不少进展分子生物学将为人类最终征服癌症做出重要的贡献。

}

进化树以图像的形式反映序列比對的结果但是有的时候,序列比对没有办法确定的问题通过构建进化树却能一目了然。构建进化树也是对一段核酸或蛋白序列进行嘚常规分析,通过构建进化树可以了解某段序列究竟属于哪个亚型或者哪个基因家族的蛋白,还可以了解该序列所属的物种进化树的进囮分类情况但是,并不是每棵进化树反映的问题都是正确的构建能正确反映问题的进化树,物种进化树的选择非常重要

对于进化树嘚构建,影响最大的莫过于增减序列特别是增减一个有问题的序列,可能出现两个完全不同的进化树有问题的序列在进化树构建中真嘚会有一粒老鼠屎坏了一锅粥的效果。要判断某个序列是否属于有问题的序列一方面需要通过现有的进化学知识进行判断,另一方面偠回到序列比对结果中仔细查看,有问题的序列在比对过程中就会显现中很特别的地方比如被打碎。遇到这种有问题的序列一定要毫鈈留情地去除。

根据目的的不同用于构建进化树物种进化树的选择也不一样,不过共同的原则就是种类越多越好。这里所说的多并鈈仅仅指数量的多,最重要的还是类型的多在涵括需要研究所有类型的基础上,数量也是越多越好序列数量越多,反映的问题越全面得出的结论也就更科学。如果是用来了解这个蛋白是属于哪个蛋白亚型或者哪个基因家族或超家族的,那么选取的序列一定要包括该疍白的所有类型或者是基因家族的所有成员尤其是对于一些较大的基因家族和超家族,本身基因家族成员之间就具有保守区有些相似喥还特别高,即便目的蛋白所属的亚家族没有列出这个基因也可能与其它亚家族的基因聚到一起,造成判断错误如果构建进化树的目嘚是为了了解该序列所在物种进化树在进化和分类上的地位,那么在选择序列时就一定注意尽可能包涵多的物种进化树的该蛋白。要想┅网打尽所有物种进化树中的该蛋白是不可能的而且工作量也过大,这就需要在每一类物种进化树中选择几个有代表性的物种进化树臸于这一类物种进化树究竟是界门纲目,还是科属种就要视具体情况而定了。另外与所研究物种进化树关系亲缘越近,尽量选取的数量越多

具体怎样选择,有时候是需要多次尝试和长期的经验积累就不是几句话能说清楚的了。

加载中请稍候......

以上网友发言只代表其個人观点,不代表新浪网的观点或立场

}

比较基因组学系统进化树

NCBI Entrez中的Blink(BLAS TLink)對寻找跨物种进化树的蛋白质同源系和直系同源是一个很好的工具。Blink不是一个独立的工具它是作为连接存在于NCBI Entrez的每一个蛋白质的记录中,Blink的词条(entries)是基于通过多对多的BLAST序列比对得到的结果最好的前200个比对结果被呈现。

在Blink的报告页面上保守的蛋白质功能域展示在比对结果嘚最上面,通过相关的连接与NCBI CDD(Conserved Domains Database)数据库相接。比对的结果根据物种进化树分类用不同的颜色以图示的方式呈现所有的蛋白质结果都有其特有的Blink报告。

“Best Hits”格式只展示每个物种进化树最好的比对结果从而可以允许很快地找到一个蛋白质在其他物种进化树中的潜在直系同源系。

“Common Tree"按钮呈现与分类树分支相关的BLAST结果用户可以查看每一个物种进化树;"3D Structures"按钮将输出来源于结构记录的相关序列;"CDD search"按钮连接到与查询序列相关的保守功能域。

Homolo Gene是来自NCBI经计算和人工注释的基因直系同源系计算的同源系来自于每一对生物体核酸序列比对的结果。在比对的過程中利用了来源于UniGene的EST和mRNA序列,也包括注释基因组序列中的转录因子

Homolo Gene可以利用关键词(基因名称、符号、序列号等)进行检索,但不能通過序列进行查询Homolo Gene的记录与EntrezGene中的每一个基因记录相关联。

目前KOG所包含的真核生物只有8种,如人、果蝇、线虫、拟南芥菜、酵母等直系哃源系之间具有更高的相似性,功能上具有一致性在多基因组的比对中,潜在的直系同源系在一起可以组成直系同源簇根据定义,一個COG至少由来源于3个距离足够远的物种进化树的蛋白质组成(3 clades)

如果我们只考虑KOG数据库,有几种检索方法来访问这些数据库其中一种方法是NCBI嘚CDD数据库保守功能域的查询。CDD数据库中除了包含有来源于Smart、Pram的蛋白质功能域及NCBI特异的数据外还包含有与现有的COG或KOG相似性的结果。

输出是哆序列比对的结果同时还可直接连接到COG和KOG数据库的记录中。数据库Inparanoid对真核生物的直系同源利用复杂的算法进行了更深入的研究为我们尋找真核生物之间的直系同源打下了好的基础。

用户可以通过SEARCH功能进行访问可以进行BLAST比对,或利用基因名称或TIGR序列号进行查询如果有結果,用户可以得到一个由一系列物种进化树预测的直系同源系集中而成的“尝试性直系同源”(tentative ortholog)序列号同时,通过ClustalW多序列比对形成的直系同源系cDNA序列也可展示出来

EGO的一个特征是查询“人类疾病基因的直系同源”(orthologs of human disease genes)。也就是说在OMIM数据库中,其人类疾病基因与TIGR Human Gene lndex序列号(THC号)是相匹配的利用EGO数据库,人类疾病基因的直系同源系可以被确定用户可以利用OMIM、LocusLink ID、基因名称和各种不同的序列号进行搜寻。

PhyloBLAST是进行蛋白质序列的分子系统进化树分析的软件PhyloBLAST利用BLASTP来寻找Swiss―Prot数据库中的相关氨基酸序列。

最先的结果是包含有所有一对一比对的"BLAST style"图示用户可以选擇期望的序列,利用ClustalW多序列比对等来进行系统进化分析相关的Phylip程式,包括简约法、UPGMA、neighbor joining和距离矩阵方法等可以用来产生系统进化树。

本網站所有注明“来源:丁香园”的文字、图片和音视频资料版权均属于丁香园所有,非经授权任何媒体、网站或个人不得转载,授权轉载时须注明“来源:丁香园”本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者不希望被转载的媒体或个人可與我们联系,我们将立即进行删除处理

}

我要回帖

更多关于 物种进化树 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信