目前鑑定全基因組加倍(whole-genome duplication events)有3種ide
方法是比較兩個基因組的序列,並將同源序列的位置繪製成點狀圖,若是能在點狀圖中發現比較明顯的長片斷,切較多,即可以推測是因爲大尺度的基因組重複之後保留下來的痕跡,,而通常咱們假想這種大尺度的基因組重複每每就是全基因組的重複。一樣,對於單個物種而言,咱們也能夠繪製基因組內部的共線性的點狀圖,若是發現同一個物種的基因組的區間能夠匹配到多個不一樣的區間中,這就暗示了該物種經歷過基因組的加倍事件。利用共線性方法有一個弊端就是須要依賴全基因組的序列和基因順序,所以只有作了全基因組測序才能進行共線性分析,不過這在基因組測序技術飛速發展的今天也不是什麼難事。網站
在向日葵的這篇文章中,做者就用到了這種方法,三個點狀圖分別是向日葵、洋薊、咖啡的基因組內部共線性分析。每一個圖的橫縱座標的方格表明一條染色體。例如,最左邊的向日葵基因組有17條染色體。對角線固然是每一個基因和本身自己的共線性。而對角線以外的點,表明分佈在不一樣位置的旁系同源基因對。圖中圓圈標註的位置,就是明顯的基因組加倍事件的痕跡——3號染色體的一段和9號染色體的一段有明顯的共線性。手機屏幕過小看不清?下面有高清圖:spa
![](http://static.javashuo.com/static/loading.gif)
。blog
這個明顯的痕跡就是向日葵獨有的全基因組二倍化事件WGD-2留下的痕跡,固然其實還有不少,眼力好的同窗能夠本身連連看一下。那麼前兩次WGT留下的痕跡呢?全基因組加倍事件能夠一次性增長一個物種全部的基因拷貝,在天然選擇的做用下,倍增後的基因經歷不一樣的命運:部分拷貝丟失,失去功能(假基因化);部分拷貝得到新的功能(新功能化);或者各自行使祖先基因的部分功能(亞功能化)事件
這是比較流行的方法。這種方法的背景是認爲Ks值在某種程度上反映了同源基因的產生時間。而全基因組加倍事件會產生大量的同源基因,反映在Ks值上即是會有大量的Ks值接近的同源基因對的產生,這樣經過繪製Ks值的分佈圖即可以發現明顯的Ks值峯,而這些峯也就對應了全基因組加倍事件。這種方法是基於兩點假設:1.基因的突變頻率是穩定的;2.同義突變(Ks)不會影響物種適應性,由於並不會形成氨基酸序列的變化。get
舉個簡單的例子,若是咱們要進行人口調查,研究哪一年是生育高峯,咱們不須要回去查醫院的出生記錄(或者根本沒有),只須要調查如今的人口年齡構成,就能夠看出哪一個年齡是有一個高峯,那麼那個年齡的人出生的年份,就是生育高峯。甚至,假如被調查的人都忘記了本身的年齡(一個很大的假如,能夠認爲是集體失憶形成的),咱們均可以經過臉上的皺紋、頭髮的稀疏等外部特徵來推斷被調查人的年齡。若是是這樣的話,咱們一樣是基於兩點假設:1.皺紋的增加,頭髮的脫落是穩定的;2.皺紋和頭髮並不會影響死亡率。io
言歸正傳,要進行Ks分析,首先要找到同源基因對,在不一樣的物種裏面(好比向日葵-咖啡),是找最近的直系同源基因(ortholog),而在基因組內部(好比向日葵-向日葵),則是找最近的旁系同源基因(paralog)。經過計算這些基因的Ks值,咱們就能夠繪製出不一樣Ks值基因數量的分佈圖。event
![](http://static.javashuo.com/static/loading.gif)
在這幅圖中,橫座標是同源基因對的Ks值的分佈( 最大似然法F3x4 model),縱座標爲同源基因的數量,不一樣顏色的柱子表明不一樣的物種組合,好比黑色就是向日葵基因組內部的Ks分佈。每個峯都對應一次全基因組加倍事件,好比向日葵的WGD-2,由於發生的較晚,因此峯所在的位置Ks值較小,並且峯比較明顯。而最下面橙色的峯,是咖啡發生的全基因組三倍化事件,峯值所在位置Ks值較大,但峯已經很不明顯。一樣,藍色的峯爲洋薊的WGT-1事件,紫色的峯表明向日葵和咖啡的分化事件。最左邊向日葵黑色的峯,實際上是向日葵的重複序列形成的,不是真正的Ks峯。class
不只如此,有了Ks值,咱們還能夠計算全基因組加倍事件發生的時間,只要知道鹼基同義替換的速率r就能夠了。在這裏,這篇文章的做者在一個神奇的網站www.timetree.org查詢了物種的分化時間,向日葵和咖啡的分化時間是100MYA,那麼根據公式:分化時間=Ks/2r,就能夠計算每一年每一個同義替換位點發生替換的速率爲r=8.25E-9。而後用這個r值去計算不一樣的基因組加倍事件發生的時間,最終得出了咱們在上文提到的時間:WGTγ (Ks=2.02-2.71, 122-164 MYA), WGT1 (Ks=0.63-0.82, 38-50 MYA) ,以及WGD2 (Ks=0.48, 29 MYA)。是否是跟作小學乘除法同樣簡單?pdf
固然Ks值也有一些不可避免的限制,好比很難應用於比較古老的基因組加倍事件的識別,這是由於隨着時間的推移,同源基因對之間的Ks值會發生變化,而對於古老的基因組加倍事件而言,其所產生的同源基因對的Ks值的變化可大可小,最後反映在Ks值的分佈上就會發現方差很大的一些Ks,這樣就很難推算是否有一個明顯的Ks峯值了。另外,因爲隨着時間的延長,同義替換趨於飽和,會致使Ks值計算的誤差,對於尋找古老的基因組加倍事件形成困難。
系統發生組學是經過構建大量的基因樹,而後比較基因樹和物種關係的參考系統發生樹,找到上面的差別,這些差別每每是因爲基因重複致使的。若是能發現大量的基因樹中在同一物種樹節點上都有基因重複事件,那麼一個比較直接的猜測就是這個節點發生了一次基因組的複製事件。系統發生組學的方法比較困難,計算量大,這裏再也不詳述。
關注下方公衆號可得到更多精彩
![](http://static.javashuo.com/static/loading.gif)
參考連接
2. The sunflower genome provides insights into oil metabolism, flowering and Asterid evolution