第二章 氨基酸序列的进化演变
1、導讀
分子進化的重要原理如基因進化的重復進化(gene duplication)、分子鐘等(moleculer clock)都是通過研究氨基酸序列發現的。
這里之所以先介紹氨基酸進化的原因:
1)比DNA序列更加保守
2)蛋白質編碼基因的DNA序列的對位排列分析上,需要氨基酸序列矯正
3)氨基酸的進化演變模型比DNA序列簡單的多
本章的重要目的:介紹兩個氨基酸序列間進化距離(evolutionary distance)的統計方法。
研究進化距離的意義:
1)對研究蛋白質進化非常重要
2)可用來構建系統樹并估計分歧時間
在氨基酸序列方面,通常以氨基酸替代數來測定距離,但不同假設下存在不同的測度。
2、氨基酸的差異和不同氨基酸的比例
2.1)最簡單的測度
兩個序列間氨基酸個數差異(nd)。如果所有的氨基酸的個數相同(n),上述差異數就可以用來比較不同序列間的分歧程度。當多重序列比對時候,經常會含有插入缺失,這種情況下計算nd需要去掉插入缺失(間隔,indels),否則不同序列對間相比較時候計算出來的nd沒有意義。nd:number of amino acid differences
2.2)p距離
兩個序列間差異氨基酸所占的比例.即使n隨著不同序列而變化,但比例值(p)依舊可以用于比較分歧程度,該距離為p距離(p為proportion的縮寫)。公式為:
假設所有的氨基酸位點都是以相同的概率替代(即每個位點差異的概率都是p,相當于伯努利實驗),則nd需遵循二項式分布,,因此其方差為:
n=140,nd位于對角線上,p值位于對角線下。可以看出,物種關系遠時,p值大;物種關系近時,p值小。說明:隨著物種分歧時間增大,氨基酸替代數目也增加。但是p并不嚴格與分歧時間(t)成比列。 下面將給出解釋。
3、 泊松校正和τ距離
p與t成非線性關系的原因:同一個位點氨基酸的多重替代(multiple amino acid substitution), 這導致nd偏離實際氨基酸替代數逐漸增加。更精確的估計替代數方法是是用泊松分布。
3.1、假設氨基酸替代率在每一個位點都相同
r:特定位點的氨基酸替代率,這里假設每一個位點替代率相同(不是真實情況,但次假設誤差很小,除非p非常大)。t年之后,每個位點氨基酸替代數為rt.在一個給定位點氨基酸替代數k(k=0,1,2,3,4,5,6) 發生的頻率遵循泊松分布。即:
因此某一位點氨基酸不變的概率為:
如果多肽鏈長度為n,不變氨基酸的期望為ne-rt
但在實際應用中,并不知道祖先物種的氨基酸序列,這樣上述公式就不能用。因此只能對已有t年分化的兩個同源序列進行比較來估計氨基酸的替代數。
由于一個氨基酸位點無替代的概率是e-rt,因而兩個序列同源位點均無替代的概率是:q=(e-rt)2=e-2rt. 而q=1-p.
兩個序列間每個位點氨基酸替代總數為d(d=2rt)為:d=-ln(1-p)
以代替p,可以獲得d的估計值,即泊松校正距離,同時的方差為:
分子進化研究中通常需要知道氨基酸的替代率(r),如果從其他生信手段已經知道兩個序列的分化時間t, 此速率的估計值為:
注意:是2t,而不是t.因為該速率是一個進化系速率。
的方差為
另一方面如果我們得知速率r,但不清楚進化時間t,可以用下式表示:
其 方差為:
3.2 實際情況中每一個氨基酸位點的替代率并不都相同
以上所有的公式都假設的是氨基酸每個位點的替代率是相同的。然而事實并非如此,因為功能上次要的位點比功能上重要的位點常常含有更高的替代率。每個位點氨基酸替代率(k)分布的方差大于泊松方差,且次此方差近視值遵循負二項分布。若已知每個位點的氨基酸替代率(r)按照τ分布的話,每個位點氨基酸替代的觀察值將按照負二項分布。因此建議不同位點的替代率都按照τ分布估計。即:
3.3 突變率和替代率
只有當突變擴展到群體中,才能使得突變參與到基因組中。這一事件稱為突變再群體中的固定。一旦突變固定,群體中每一個個體都攜帶同樣突變。再比較不同物種的氨基酸序列時候,我們主要研究已經固定到這些物種的基因組中的突變的氨基酸的演變。
即,每個基因座的基因替代率等于突變率。
在氨基酸序列數據方面,通常考慮每個氨基酸位點的替代率。如果以每年每個氨基酸位點突變率(u)來定義突變率,則每年每個位點的氨基酸替代率等于突變率。
在某些情況下:
總結
以上是生活随笔為你收集整理的第二章 氨基酸序列的进化演变的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: API集成管理平台YAPI的搭建和使用
- 下一篇: 安装VMware 置灰正确解决办法