大家新年好呀,这个春节大家在家肥宅开心吗?新型冠状病毒想必大家已经不陌生了。今天我们就由此来谈谈病毒的同源性吧。日前,《新型冠狀病毒诊断方案》第四版刚刚出炉,其中指出新型冠状病毒与SARS同源性达85%。那么,何为“同源性”?
“同源性”是在进化生物学领域广泛使用的术语,英文为homology。这一概念的首次提出要追溯到上个世纪。1843年,对于比较解剖学家理查德欧文爵士(Sir Richard Owen)来说是可喜可贺的一年,这一年,出生于英格兰西北小城兰卡斯特(Lancaster)的欧文当选为瑞典皇家科学院的海外院士。也正是这一年,欧文在皇家外科学院(Royal College of Surgeons)的一次演讲中提出了同源性的概念:the same organ in different animals under every variety of form and function(相同器官在不同动物中的各种形式和功能)【1】,尽管在很多人眼里,欧文更重要的贡献或许是伦敦自然博物院的建立和恐龙的命名【2】
理查德·欧文(左)和瓦特·菲奇(右)
由上面的定义可知,“同源性”的概念代表了进化的思想,这在当时的世界可以说是超前卫的观点。八年之后,《物种起源》出版。尽管达尔文在这本改变世界的著作中并未直接使用“homology”【3】,但一年后,有着“达尔文斗牛犬”(Darwin's bulldog)美誉的赫胥黎(Thomas H. Huxley)在《物种起源》的review中已使用同源的概念作为进化的证据【3,4】。
后来,随着遗传学的出现,同源性的定义拓展到了遗传物质的范畴。让我们看一下维基对于序列同源性的介绍:
Sequence homology is the biological homology between DNA, RNA, or protein sequences, defined in terms of shared ancestry in the evolutionary history of life.【5】
写得很清晰:序列同源性是指DNA、RNA、或者蛋白序列的生物学同源性,由它们在进化过程中的共同祖先判定。再拓展一点,homolog同源物(或同源基因)在序列层面还可以大致上分为ortholog直系同源(基因)和paralog旁系同源(基因)。前者是通过物种分离(speciation)形成的,而后者往往是基因倍增(duplication),美国分子进化学家瓦特·菲奇(Walter Fitch)对这些概念首先做出了明确区分【6】。但不论如何,重要的是,可以被称为homolog的基因,都必须满足“拥有共同祖先”这一标准。
同源基因(组蛋白H1)的序列比对【5】。从上到下的物种分别为人、黑猩猩、小鼠、大鼠、奶牛
直系同源与旁系同源【5】
说一对基因属于同源基因,一般而言并不是一个既定的事实,因为我们对于共同祖先的推断并非确凿的实验,而是对历史的推断。我们说基因a和基因 b是同源基因,一般是因为它们序列相似性足够得高,以至于除非二者“同源”,否则很难从随机的DNA片段里产生。当然,有些基因或许享有同一个起源,但或是进化速度太快,或是进化时间太久,或其他原因,总之我们现在找不到这些基因之间明显的“看上去”的同源的痕迹,那一般而言便不能判断同源关系。
可见,同源性是一个二元性的概念,要么是0,没有同源性——不是同一个来源,要么是1,有同源性——是同一个来源。其实,中文“同源”的字面意义已经足够明确了。
最后,我们回头看看文章开头的部分。“SARS-CoV与2019-nCoV的同源性为85%”,按严格的学术定义,似乎是不严谨的。实际上,任何介于0-1之间的homology严格意义上说都是不严谨的【5,7】。按照【7】所述“Research papers sometimes wrongly quote values of ‘percent homology’. In these cases ‘percent identity’ is meant, as two genes either have a common ancestor or they do not.”,我们可以理解为表达的意思为是序列identity为85%。如果有人理解为是85%的把握认为两者同源,也并不正确,因为任何一个BLAST搜索就会告诉大家它们的同源性是100%。更具体一点,来自意大利米兰大学的Diego Forni等人在2016年的一篇文章里对整个冠状病毒的进化历史做了梳理,其中直接讨论了所有冠状病毒的共同祖先的起源,感兴趣的朋友不妨找来读下【8】。
引文
1. Owen, Richard (1843). Lectures on the Comparative Anatomy and Physiology of the Invertebrate Animals, Delivered at the Royal College of Surgeons in 1843.
3. Koonin, Eugene V. "Orthologs, paralogs, and evolutionary genomics." Annu. Rev. Genet. 39 (2005): 309-338.
4. Huxley THH. 1860. ‘The Origin of Species’. Westminst. Rev. 17:541–70
6. Fitch, W. M. (1970). Distinguishing homologous from analogous proteins. Systematic Biology 19 (2): 99-113.
7. Webber, Caleb, and Chris P. Ponting. "Genes and homology." Current Biology 14.9 (2004): R332-R333.
8. Forni, Diego, et al. "Molecular evolution of human coronavirus genomes." Trends in microbiology 25.1 (2017): 35-48.
往期文章
1. 武汉肺炎病毒的时间生物信息学分析
2. 流行病学里的R0是什么
作者原创,原载于生信人公众号