歡迎關注微信公衆號:AIPuFuBio和使用生物信息學平臺AIPuFu:www.aipufu.com。算法
基因融合(gene fusion)是指因爲某種機制(如基因組變異)使得兩個不一樣基因的部分序列或所有序列融合到一塊兒,造成了一個新的基因。以下圖所示:微信
通常來講,基因融合是指基因組層面的融合。但轉錄組層面也可能發生融合,主要是因爲兩個不一樣基因轉錄產生的RNA,因爲某種緣由融合在了一塊兒,造成新的融合RNA,該RNA可能編碼蛋白,也可能爲非編碼。而基因組層面產生的融合基因,根據融合的狀況,可能表達,也可能不表達(如破壞了啓動子區域或其餘緣由)。工具
基因融合的產生機制主要有如下三種,具體以下圖所示:性能
基因融合常見的三種發生機制:大數據
1)Chromosomal Translocation,染色體易位。如上圖A中1號和2號染色體上的兩片斷髮生交叉互換,致使1號染色體上的淺綠色基因與2號染色體上的橘黃色基因融合到一塊兒;編碼
2)Interstitial deletion,中間缺失。如上圖中,3號染色體上的橘黃色基因和淺綠色基因之間的區段發生缺失(deletion),最終致使這兩個基因融合到了一塊兒;spa
3)Chromosomal Inversion,染色體倒位。如4號染色體上的橘黃色基因到墨綠色基因之間的片斷髮生倒位,最終致使橘黃色基因和淺綠色基因融合到了一塊兒。設計
那爲何要研究基因融合呢?由於過去的諸多研究不斷代表,基因融合與各類疾病,特別是癌症的發生發展緊密相關,甚至是一些癌症的直接誘因,因此基因融合也成爲了當前組學大數據分析中的一項重要研究內容。3d
目前,已經報道有不少癌症的發生與基因融合密切相關,具體以下表所示:blog
並且,美國FDA(Food and Drug Administration)已經批准了一些針對特定基因融合的藥物,以治療相應的癌症,具體以下表所示:
所以,基因融合可能與各類癌症的發生發展緊密相關,這些融合基因還多是潛在的藥物靶點,很是有必要對它們進行深刻的研究。
基因融合的鑑定,能夠基於全基因組測序數據(whole-genome sequencing,WGS),也能夠利用轉錄組測序數據(RNA-seq),或者二種技術結合起來更好。
全基因組測序鑑定出的基因融合,基本能肯定是因爲基因組層面發生某種變異而引發的,但若是沒有轉錄組測序數據,就沒法準確判斷融合後產生的新基因是否可以表達,或表達量的高低。
而轉錄組測序數據鑑定出的基因融合,能夠明確是能表達的基因融合,但卻沒法徹底肯定是不是由基因組變異產生的,仍是來源於兩個不一樣基因轉錄後發生的RNA融合。
所以,若是條件容許,同時結合全基因組測序和轉錄組測序來鑑定基因融合,可以得到更準確的鑑定結果。
在瞭解基因融合鑑定的方法或軟件前,咱們先了解一下基於測序數據鑑定基因融合時的一些常見術語。具體以下圖所示:
這些常見的術語有:
1)Intact exon (IE) type fusion,是指融合後完整的保留了原來的外顯子,未影響原來的外顯子結構。如上圖A中Gene A的Exon2和Gene B的Exon1融合後完整的保留了兩個外顯子的序列;
2)Broken exon (BE) type fusion,是指融合後沒有保留原來完整的外顯子序列。如上圖A中 Gene A的Exon3的部分序列和Gene B的Exon2融合在一塊兒,融合後的新基因中,來自Gene A的Exon3丟失了部分序列;
3)Breakpoint,是指兩個融合基因在基因組上發生融合的位置,如上圖B中Gene A(藍色)和Gene B(綠色)融合的位點;
4)Spanning read,是指跨越融合位點分別匹配到兩個融合基因的paired-end read,好比上圖B中的匹配到Gene A(藍色)和Gene B(綠色)的一對read;
5)Split read,是指剛好匹配到融合位點上的read,具體如上圖B中右側圖所示;
6)Anchor length,是指跨越融合位點的read左端和右端的長度,具體如上圖B中右側圖所示;
7)short insert size,通常是指雙端測序paired-end sequencing中,兩個read中間間隔的較短距離,通常爲幾百bp;
8)long insert size,通常是指雙端測序mate-pair sequencing中,兩個read中間間隔的較長距離,通常爲幾kb甚至更長;
基因融合鑑定軟件的開發,通常就是基於上面提到的這些術語,採用相應的算法來設計的。
到目前爲止,已經有數十種不一樣的基因融合檢測軟件相繼被開發出來,其中一些具備比較好的綜合性能。接下來,咱們就進一步比較分析一下一些經常使用的基因融合鑑定軟件的性能。
下表列出了15種經常使用的基因融合鑑定軟件在3組不一樣類型的人工合成數據和3組真實數據集上的性能比較。這些軟件分別是:SOAPfuse,FusionCatcher,JAFFA,EricScript,chimerascan,PRADA,deFuse,FusionMap,TopHat-Fusion,MapSplice,BreakFusion,SnowShoes-FTD,FusionQ,FusionHunter,ShortFuse。
值得注意的是,測序read的長度,還有雙端測序read的間隔距離insert size等都會影響基因融合的鑑定效果。所以,上面表中使用了不一樣類型的測數據來綜合檢驗這15款軟件的性能。其中,Type-1A 爲使用wgsim軟件人工合成 的來自5’ 和 3’ end 的chimerical transcripts 雙端測序數據, 其中read長度爲100bp,insert size 爲500 ± 50 bp; Type-1B數據合成方法和Type-1A相似,只是雙端測序數據的insert size較小,爲 250 ± 50 bp;Type-3B: read 長度爲50 bp 的合成數據; 另外三組真實數據分別來自於Breast cancer,Melanoma和Prostate cancer。
比較結果顯示,SOAPfuse,FusionCatcher和JAFFA在3組模擬數據和3組真實數據上的綜合性能最好,取得了最高的F-measure分值。
Liu et al. 進一步比較了15種基因融合檢測軟件在更多真實數據上的性能表現。具體以下圖所示:
真實數據上的比較結果也顯示,SOAPfuse,FusionCatcher和JAFFA在檢測基因融合時具備較高的準確性。
Liu et al. 也比較了15種基因融合檢測軟件在不一樣測序深度的合成數據集和真實數據集上的運行時間比較。具體以下圖所示:
運行時間比較結果顯示,FusionMap等軟件的運行速度最快。但前面的結果顯示,FusionMap檢測的基因融合準確性較低。
因此,沒有哪個方法在各方面的性能比較上面都具備最明顯的優點。總體來看,SOAPfuse綜合比較最好,接着是FusionCatcher和JAFFA。 並且,由於不一樣軟件具備的優缺點不同,若是聯合多個不一樣軟件一塊兒鑑定基因融合,或可取得更準確的結果。
更多精彩,可見大型免費綜合生物信息學資源和工具平臺AIPuFu:www.aipufu.com,關注微信公衆號:AIPuFuBio。
但願今天的內容對你們有用,歡迎留言~~!