垃圾DNA真的是垃圾吗?

    在人类基因组计划实施之前,对于这项人类历史上规模空前的世界性合作研究项目究竟该做些什么,存在一些争议。有一派观点认为,只需要测定编码蛋白质的那些DNA序列即可,因为对于DNA序列,我们只关心其中与基因相关的部分,而基因的一般定义就是用来编码一个蛋白质的DNA序列;另外一派观点认为,既然要测,就应该测定人类染色体内所有的DNA序列,不管它是不是跟编码蛋白质有关。这两个观点的差异主要来源于这么一个事实:在一个染色体所包含的完全DNA序列当中,编码蛋白质的部分只占非常非常小的份量,而大部分的DNA序列其实并不参与编码蛋白质,这样一些DNA序列一开始就被称为垃圾DNA,表达了人们对它们的存在价值的基本判断。

    不过随着研究工作的深入,越来越多的证据表明,那些所谓垃圾DNA实质上包含了非常重要的信息,并不是“垃圾”!因此今天回顾起来,我们不得不庆幸当时人类基因组项目的负责人最终还是谨慎占据了上风,得以对人类的完全DNA序列进行了测定,从而避免了潜在的重大科学损失。

进化的背景

    对一个物种而言,它的垃圾DNA确实就象是垃圾,因为至少目前还没有得到确切的证据能够表明它是有用的:它既不能给蛋白质编码、充当基因,也不能给RNA编码,也没有找到明显的与蛋白质等其他分子发生相互作用的迹象。当然,完全有可能它是行使了某种功能的,只不过是在“暗地下”进行,而我们还没有能力看到它行使功能的身影罢了。

    既然我们目前对于如何发现垃圾DNA的作用现场还没有任何头绪,那么可以转而间接地去探讨它存在的价值,一个很好的途径是在物种的进化谱系上进行不同物种的DNA序列对比。按照现代生物学的理解,DNA序列记载着一个物种全部的可遗传生命信息,那么处于不同进化地位的物种之间的进化关系,应该是能够通过它们的DNA序列的继承和变化关系来表现的。可以想象,当一个新物种从它的原始物种进化出来以后,它不可能把全部的蛋白质都进行更换,相反,它能够产生的新生种类的蛋白质,应该只是很少量的,但对于它所具有的新的形态和功能而言,却又是关键的。因此只有这样的蛋白质的编码信息才是在它的原始物种的DNA序列里面找不到的。同时其他大部分行使类似功能的蛋白质,都应该是以继承为主的。

    现代根据DNA序列所进行的进化论研究确实证实了这点,对于生命而言非常基本的一些蛋白质,从大肠杆菌一直到人身上,都是非常类似的,相应的基因序列当然也差异很小。实际上,生物学家反过来利用了这点,通过对比同一个蛋白质在不同物种之间的基因差异程度,来度量它们在进化谱系上面的距离,甚至根据DNA碱基突变具有无关性和稳定突变速率的假设,把基因变异看成是时光的刻度,从而可以依据这面进化之钟,确定物种之间的相对进化年龄。

保守的垃圾

    既然编码蛋白质的DNA序列具有如此深厚的涵义,那么垃圾DNA序列呢?生物学家们从此受到启发,于是把不同物种之间的垃圾DNA也拿来作对比,结果是不比不知道,一比吓一跳!

    去年有人初步地比较了一下人和老鼠的基因组序列,发现其中所谓垃圾DNA里面,居然有5%的序列是非常保守的,也就是说它们在人和老鼠之间没有太大差异,而如果拿编码蛋白质的DNA序列进行比较的话,人和老鼠之间没怎么变化的序列的份量比垃圾DNA还少12个百分点,当然在那些保守的垃圾DNA里面,包含了部分本来就非常保守的用来编码RNA的序列,不过那个部分所占比例应该不大。

    最近又有一组科学家对这个问题进行了更加系统的研究。他们首先通过和老鼠对比,在人的21号染色体上面确定出保守非基因序列(CNGs),严格地从其中排除能够编码已知蛋白质的序列和编码RNA的序列。然后从其中选取220个这样的保守非基因序列,再确定了12种进化关系相距甚远的哺乳动物,包括鸭嘴兽和猴子等。他们运用聚合酶链式反应从这12种哺乳动物的DNA里面寻找那220个保守非基因序列,结果这220个保守非基因序列当中的大多数都至少在一种哺乳动物的DNA序列当中发现,其中超过25%的保守非基因序列在至少10种哺乳动物的DNA序列当中同时发现。

    更加令人吃惊的是,这些同时存在于不同哺乳动物DNA序列当中的保守非基因序列的相似性,甚至比同源的编码蛋白质、或者是编码RNA的基因还强。对于其中同时在至少12种物种当中发现的保守非基因序列,如果比较它们的核苷酸排列差异的话,还不及它们的蛋白质编码序列的核苷酸排列差异的一半!最突出的一个例子,是一个包含100个核苷酸的DNA短序列,它在包括人的所有13种哺乳动物之间,只在6个核苷酸的位置上面发生了变异,甚至鸭嘴兽的这个短序列和人的一模一样!

越保守越重要

    这说明这个短序列从鸭嘴兽开始,就一直保留在哺乳动物的遗传信息里面,历经如此多的新物种的发生,它都稳定地没怎么发生变化。一般来说,这样高度的保守性对于编码蛋白质的DNA序列是非常有意义的,因为如果一种蛋白质在所有这些物种当中,都承担了一种基本的共通的生命活性功能,那么它的任何微小的变异,都有可能产生致命的后果,那么在进化产生新物种的同时,必定要求这个序列基本不发生变异地被新物种继承。但是既然那些保守非基因序列没有承担编码蛋白质或RNA的任务,为什么也具有如此高度的保守性呢?

    正因为这个问题非常费解,于是有人会自然地怀疑这个实验是不是有可能出现错误,例如在其他物种的DNA里面寻找相同的序列时,有没有可能由于样品发生污染,而使得该物种本来没有的序列被混进去呢?这点也是实验者自己最为关注的问题,因此他们采取了一切最严格的措施,以避免这样的错误发生。另外,还存在一个外部证据,表明他们如此惊人的实验结果应该是没有错误的,即除了他们所选择的12种哺乳动物之外,另外一家研究机构公布了他们独立完成的对于狗的类似研究,而把这个狗的数据拿来比较的话,得到的结论是一致的。这样,就可以基本排除对于实验本身出错的担心。

    由于他们选取的哺乳动物包括了非常原始的单孔目动物和最先进的人,这意味着这些序列一定经历了大概3亿年之久而没有发生太大的变异,这种保守性提示了它们一定具有对于该物种来说非常重要的作用,否则,发生在这些序列当中的随机变异在这么长久的历史当中一定有所积累才对,但现在既然看不到这种积累,就只能说明它们的变异有可能影响物种的生存机会!一般的估计是,这些曾经被视为垃圾的DNA序列,对于基因的表达具有调节控制作用,当然,这样的猜测还需要未来大量的实验去揭示和验证。

    研究人员进一步估计,在人的整个DNA序列里面,大概存在6万个这样的保守非基因序列,相形之下,人所拥有的基因数目,也就是在整个DNA序列里面,编码蛋白质的序列单位,只有大约3万个。因此尽管目前人们把目光主要集中在那3万个基因序列上面,但谁也不敢预测,当那6万个保守非基因序列打破沉默,向我们表述它们的无名功能的时候,我们会感受到多大的震撼!至少现在,已经有越来越多的人相信垃圾DNA绝对不是垃圾了。