基因組變異彙總

人類基因組上的結構性變異研究對於基因組進化,羣體多態性分析以及疾病易感性等方面的研究有着重要的意義。第二代短reads高通量測序技術的發展在帶來了測序成本下降的同時,這種短讀長的測序方式也給人類的變異檢測帶來了很大的挑戰。這裏我主要對當前經常使用的變異檢測方法、軟件以及他們各自的有肯定作一個簡要的小結。算法

     人類基因組上的變異主要分爲三大類:1. 單核苷酸變異,(一般稱爲單核苷酸多態性,通俗的說法就是單個DNA鹼基的不一樣,簡稱SNP);2. 小的Indel(Insertion 和 Deletion的簡),指的是在基因組的某個位置上所發生的小片斷序列的插入或者刪除,其長度一般在50bp如下(這個長度範圍的變異能夠利用Smith-Waterman 的比對算法來得到1,2);3. 大的結構性變異,這種類型比較多,包括長度在50bp以上的長片斷序列的插入或者刪除、染色體倒位,染色體內部或染色體之間的序列易位,拷貝數變異,以及一些形式更爲複雜的變異。爲了和SNP變異做區分,第2和第3類變異一般也被稱爲基因組結構性變異(Structural variation,簡稱SV)。這裏值得一提的是,研究人員對基因組的結構性變異發生興趣,主要是因爲這幾年的研究發現:(1)雖然還未被普遍公認,但研究人員發現SV對基因組的影響比起SNP來講還要大3;(2)基因組上的SV比起SNP而言,彷佛更能用於解釋人類羣體多樣性的特徵;(3)稀有且相同的一些結構性變異每每和疾病(包括一些癌症)的發生相關聯甚至仍是其致病的誘因4–6。不過應該注意的地方是,大多數的結構性變異並不真正與疾病的發生相關聯,可是卻確實與周圍環境的響應或者其餘的一些表型多態性相聯繫。app

      近年來,隨着芯片技術(這裏的芯片技術和IT領域所說的芯不是同一個概念,這裏指的是一種用於抓獲基因組特定序列片斷的技術)和第二代高通量測序技術的發展,人類基因組上的結構性變異圖譜才被真正全面而又集中地進行了研究。生物信息研究人員已針對這兩種不一樣的技術開發了許多相對應的軟件用於檢測基因組的結構性變異。相比較而言,雖然成本較高,可是基於測序的方法要明顯優於芯片的檢測,其中最重要的一個方面是,高通量測序技術可以在單鹼基精度之下對全基因組範圍內全部類型的變異進行檢測,而芯片技術實際上只對大片斷的序列刪除比較敏感。框架

      接下來我將會對目前基於第二代測序技術的變異檢測方法進行介紹。事件

      在各大生物信息學期刊(包括Nature,Science,Cell等這些頂級期刊)上都有許多關於介紹變異檢測方面的文章。這裏我大體說一下四篇本身以爲在這方面比較重要的文章:綜述「Genome structural variation discovery and genotyping7」和綜述「computational methods for discovering structural variation with next-generation sequencing」,這兩篇文章所探討的主要是,如何根據實驗上和計算上的途徑來檢測和發現基因組上的各類變異,特別是對檢測SVs而已。另外兩篇文章則是基於千人基因組計劃的,他們描述的是如何利用trio家系全基因組測序的數據和羣體低覆蓋度的數據來作變異檢測的生物信息學方法8,9。然而須要指出的是,對於千人基因組計劃,他們基本上只關注於一些大片斷的序列刪除和一些特定的序列插入方面的檢測,而忽視了不少基因組上其餘形式的變異。關於這方面的侷限性,一方面多是因爲生物信息檢測方法上的不完善,另外一方面可能也和千人基因組自己的數據特色有關,使得他們難以準確地得到更多的信息。ip

      目前主要有4種檢測基因組上結構性變異的策略,分別爲:(1)Read pair(也稱爲Pair-end Mapping,簡稱PEM);(2)Split read(簡稱SR);(3)Read Depth(簡稱RD)和(4)基於de novo組裝的方法(圖1)。同時生物信息研究人員也已開發了衆多根據以上4中策略中一種或者多種的軟件用於結構性變異的檢測。接下來我將對這四種策略以及他們各自的特色逐一進行介紹。ci

圖1開發

      1. 基於Pair-end Mapping(PEM)get

      圖2是PEM方法的一個主要分析框架,理論上來說,PEM方法可以檢測到的變異類型包括:序列刪除(deletion),序列插入(insertion),序列轉置(inversion),染色體內部和染色體外部的易位(intra- and inter-chromosome translocation),序列串聯倍增(tandem duplications)和序列在基因組上的散在倍增(interspersed duplications)。這裏有兩個地方須要指出,第一,對於序列刪除的檢測,其所能檢測到的片斷長度受插入片斷長度的標準差(SD)所影響(這裏的插入片斷長度指的是測序以前在構建DNA測序文庫階段,所選取的經由超聲波打斷的DNA片斷長度,這些片斷也稱之爲測序片斷,這是實驗過程當中的操做,並非指基因組的變異),而且越大的序列刪除約容易被檢測到,而且準確性也越高;第二,其所能檢測的序列插入,長度只能在插入片斷長度的範圍內,而且最大長度也受限於測序的插入片斷長度的標準差。目前,Breakdancer是應用PEM方法的軟件,也是在使用變異檢測方面用得最普遍的軟件之一。其餘相似的軟件還包括:VariationHunter10, Spanner, PEMer11等等。可是,事實上整個過程並不像流程圖中看起來的那麼簡單,並且絕大多數的軟件都在檢測複雜的序列結構方面(如序列易位和序列倍增)存在很大的困難。it

圖2pip

      

      2. Split Read(分裂read,簡稱SR)

      對於這個方法,首先要求比對軟件具有soft-clip reads的能力,如BWA 比對軟件。咱們知道目前illumina測序平臺Pair-End測序的方法是對測序片斷的兩端來進行的,因此每次得到的都是來自同一個測序序列片斷兩端的一對read。當BWA成功地將這一對reads中的一條比對到參考序列上,而另外一條卻沒法正常比上的時候,BWA會對這條read沒能正常比上的read嘗試在比對上的那條read附近使用更爲寬鬆的Smith-Waterman局部比對策略搜索可能的比對位置。若是這條read只有一部分可以比上,那麼BWA會對其進行soft-clip,而這裏也每每是包含結構性變異的斷點之處。Pindel12,這是目前惟一一個使用SR方法進行變異檢測的軟件。它在千人基因組計劃和生物信息分析人員中被普遍使用。圖1中也清楚地展現了Split reads的信號如何被用來進行結構性變異的檢測。首先,在得到了單端惟一比對到基因組上的PE read以後,Pindel會將不能比上的那條read切開成2或者3小段,而後再分別從新按照用戶所設置的最大序列刪除長度去比對,並得到最終的比對位置和比對方向,而斷點位置的肯定則是根據soft-clipped的結果來得到。

      Pindel 理論上可以檢測全部長度範圍內的deletion,和小片斷的insertion(長度在50bp如下),inversion,tandem duplication和一些large insertion。不過目前,做者並未公開發布關於檢測lager insertion的原理。Split-reads的一個優點就在於,它們精確到單鹼基。可是也和大多數的PEM方法同樣,Pindel一樣沒法解決複雜結構性變異的情形。

      3. Read Depth (read 覆蓋深度,簡稱RD)

      目前存在兩種利用Read depth的信息檢測大拷貝數變異(Copy number variation,包括丟失序列和序列重複倍增,簡稱CNV)的策略。一種是,經過檢測樣本在一個參考基因組上read的深度分佈狀況來檢測CNV,適用於單樣本;另外一種則是經過和識別出比較兩個樣本中所存在的丟失和重複倍增區,以此來得到相對的CNV,適用於case-control模型的樣本。這有點像CGH芯片。CNVnator使用的是第一種策略,同時也普遍地被用於檢測大的CNV。固然還有一些比較冷門的軟件,可是因爲他們沒有發表相應的文章,這裏就再也不列舉了。CNV-seq使用的是第二個策略。基於其原理,RD的方法可以很好地用於檢測一些大的deletion或者duplication事件,可是對於小的變異事件就無能爲力了。

      4. 基於De novo assembly 

      理論上來說,de novo assembly 的方法應該要算是基因組變異檢測上最有效的方法了。就目前來講,它可以提供(特別是)對於long insertion和複雜結構性變異的最好檢測方法。如今雖然研究人員開發了不少基於第二代測序技術數據來進行組裝的軟件,可是組裝卻仍然是一件棘手的事情,特別是脊椎動物的組裝則更是如此。其中最主要的緣由在於,脊椎動物基因組上所存在的重複性序列和序列的雜合會嚴重影響組裝的質量,除去資金成本,這也在很大程度上阻礙了利用組裝的方法在基因組變異檢測方面的應用。

      小結:

      經過對上面四種不一樣的變異檢測策略的比較能夠發現,小長度範圍內的變異以及較長的deletion,目前都可以較好地檢測出來,但對於大多數的long insertion和更復雜的結構性變異狀況,當前的檢測軟件基本都無法還解決。Assembly應是當前全面得到基因組上各類變異的最好方法,可是目前的侷限卻也發生在Assembly自己,如果基因組沒能裝得好,後面的變異檢測就更是無從提及。從目前的狀況看,de novo assembly的方法並不能很快進入實際的應用。所以,暫且不提assembly,其他的三種策略都各有各的優點,從目前的結果看,並無哪一款軟件可以一次性地將基因組上的各類不一樣狀況變異類型都得到。所以就目前短reads高通量測序技術來講,最合適的方案應是結合多個不一樣的策略,將結果合併在一塊兒,這樣能夠最大限度地將FP下降。HugeSeq pipeline13在這方面作了一個比較好的總結,這個軟件整合了BreakDancer, CNVnator, Pindel,BreakSeq以及GATK的結果。可以給出一個相對比較準確的變異檢測結果。

相關文章
相關標籤/搜索