NGS數據的Duplication

源自:http://www.biotrainee.com/thread-1382-1-1.htmlhtml

1、Duplicated reads算法

  duplicates reads 是PCR對同一個分子進行屢次鏡像複製的結果。spa

  判斷是否爲鏡像分子的標準是:reads的起始和終止位置,起點和終點之間的鹼基序列同樣(不妨簡稱爲「三同樣」)。只要起點、終點、或者起點與終點之間的序列三者之中有一個不一樣,就是不一樣的分子,稱爲unique reads。
  鏡像複製出來的分子個數與總分子數的比例就是duplication rate,duplication rate = 1 - unique reads / total reads。htm

  PCR理論上就是用來鏡像複製DNA片斷的。對於最理想的NGS數據分析,就是儘量的把全部經過PCR得到的子鏈測序數據所有去除,把PCR的效果徹底消除,還原到沒有PCR的狀態。
  好比:設一個基因組有A、B兩個片斷,PCR後獲得不管多少條reads,好比n・A+m・B條,在數據分析的時候,都只保留1條A和1條B(unique reads)用於組裝,而去掉(n-1)條A和(m-1)條B。共有(n-1)條A和(m-1)條B被當成duplicated reads,儘管它們是正常PCR的正常產物。
  目前,現有算法實際上是一個簡化的處理方案,把全部重複的reads都去掉了,留下徹底不重複的reads。算法沒有能力區分「假重複」(人爲形成的重複序列方面的bias)和「真重複」(自然存在的重複序列)。
  故,對於NGS 數據而言,Duplicateddata是一個生物信息學概念,不是分子生物學概念;是人爲規定的,不是文庫構建、高通量測序等生化反應天然生成的。
事件

2、影響duplication rate的因素get

1 模版分子種類的多樣性(複雜度,complexity)
模板分子種類的多樣性(複雜度,complexity)。
在循環次數相同和擴增效率相同的條件下,PCR起始時模板分子的多樣性越多,PCR結束時鏡像複製分子的數量就越少,比例就越低,dup rate就越低。NGS文庫構建的PCR循環次數最好不要超過6個,以保證PCR產物具備足夠的複雜度。

2 模版分子鹼基組成的多樣性(複雜度,complexity)
模板分子鹼基組成的多樣性(複雜度,complexity)。
鹼基組成不同,PCR難易程度不同。容易PCR擴增的分子在測序數據中佔優點。

3 連接效率
鏈接效率。
在分子多樣性相同和PCR條件相同的狀況下,建庫過程當中模板與接頭的鏈接效率越高,NGS數據的dup rate越低。

4 片斷化的長度和隨機性
片斷化的長度和隨機性。
超聲波隨機打斷和酶切隨機打斷,就是爲了得到分子多樣性。這裏必定強調隨機。用一種或者多種內切酶得到的DNA片斷,其分子多樣性不如隨機打斷。
DNA片斷的長度要適當。片斷長度越小,致使PCR擴增越容易,加重了PCR bias,最後引發PCR產物複雜度下降,dup rate升高。

5 磁珠洗滌條件的嚴謹性
磁珠洗滌條件的嚴謹性。
磁珠吸附DNA在本質上是電荷吸附。DNA序列不一樣,電荷密度不一樣。若是洗滌條件不嚴謹,就會形成磁珠吸附有偏好性,也就意味着分子多樣性下降,影響dup rate。
膜吸附也是一樣的道理。

6 探針雜交封閉的有效性
探針雜交封閉的有效性。
若是探針雜交時LINE、Alu等重複序列未能有效封閉,必然形成dup rate升高,有效數據下降。
若是adaptor被未有效封閉,必然形成off target數據的比例升高。單位質量的DNA中,on target部分減小,勢必形成on target部分中比例低的分子在測序數據中更容易減小或者缺失,即on target部分的分子多樣性下降,影響dup rate。

7 Cluster PCR
Cluster PCR。
除了建庫PCR,cluster在flowcell上的生成也是一個PCR過程。這個PCR容易被忽略。
反方:1條模板通過ClusterPCR只能造成1個cluster,測出1條read。Cluster PCR不增長測序reads的數量,因此不影響dup rate。
回答:cluster PCR若是形成cluster變少,則影響dup rate。緣由是比例少的分子有可能不能產生cluster,形成惟一性分子數減小,進而影響dup rate。
適當的cluster生成密度,不只可以得到最佳的數據產量,也可以得到較低的dup rate。不管ILMN仍是PGM平臺,咱們都但願cluster是單克隆(monoclonal)的,多克隆(Polyclonal)的cluster甚至是相互overlap的cluster都會被測序識別程序過濾掉,形成的直接影響就是cluster密度太高,數據產量下降,整張芯片的cluster多樣性下降,形成dup rate升高。Cluster生成的第一步,是模板DNA分子與flowcell上的oligo雜交結合的過程。這個過程是隨機事件。模板分子的多樣性和複雜度越高,各類分子的比例越均一,dup rate就會越低。極端的狀況就是每一個cluster只是一種模板分子的單克隆,這個時候dup rate是最理想的。
注:Illumina HiSeq X10以前的平臺,flowcell上cluster的生成具備排他性,clusters能夠長得挨在一塊兒,可是不會相互重疊。只要其光學檢測系統的分辨率足夠,就不會有cluster信號的重疊。HiSeq X10以後的平臺,flowcell上是打孔的,cluster長在孔裏,生成多克隆cluster的可能性但願專家指教。

8 試劑質量很差
試劑質量很差。
好比SBS測序試劑出了問題,有可能形成WES的dup rate升高到30%。

9 Dup rate與探針關係最小
Dup rate跟探針的關係最小。
極端的例子就是擴增子(PCR產物)測序,dup rate能夠很高,但徹底沒有探針存在。探針雜交過程當中最影響分子多樣性的因素是探針分子與目標分子的比例,其次是雜交的時間。探針與目標分子的比例最低應該在100:1(必定的體積內,有體積的要求),高於這個比例,探針是可以將目標分子捕獲的。目前的探針法NGS,這個比例是很高的,探針數量是高度冗餘的。雜交法的目標是得到最多的分子包容性,得到最多的與參考序列不同的序列。只有增長分子包容性,才能最大可能地包含變異的類型,所以探針分子要長,雜交時間要長。NGS雜交不是爲了特異性,而是爲了更高的產量,得到更多的不許確。由於越準確,就意味着測序數據與參考序列(也就是探針序列)是同樣的,這樣就沒有測序的必要了,也就沒有發現新的信息的功能了。所以,雜交時間短,不能容納最大序列可能性,形成分子多樣性下降,進而影響dup rate。


3、模板分子多樣性很是重要
總之,dup rate與模板分子的多樣性呈反相關,全部影響分子多樣性的環節與因素都會影響dup rate。

除了上面講的那些因素,樣本的性質也對模板分子的多樣性有影響。如FFPE樣本的dup rate高是共識。再如單細胞測序,單細胞DNA的有些區域在測序結果中壓根就測不到。單細胞全基因測序的覆蓋率是80%~90%,而多細胞全基因測序的覆蓋率能達到99%以上,緣由就是分子多樣性不一樣。對於多細胞測序,相同區域的分子,這個細胞沒有擴增到,另外一個細胞可能就擴增出來了;而單細胞只有兩次機會,沒了就是沒了。

其餘因素還包括模板DNA的質量、實驗室科學家的操做習慣等。好比,一樣是取200 ng模板DNA,一我的取0.1 uL得到200 ng,另外一我的取5 uL得到200ng,這兩種方法的分子多樣性不同。  數據分析

相關文章
相關標籤/搜索