使用IDR軟件處理生物學重複樣本的peak calling

歡迎關注」生信修煉手冊」!git

對於chip_seq, atac_seq等實驗而言,生物學重複樣本的peak calling結果很難徹底一致。對於多個生物學重複樣本的peak calling結果, 如何篩選出最終的能夠表明這一組樣本的peak是一個難題。github

目前常見的策略有如下幾種web

  1. 直接合並生物學重複樣本的reads, 而後進行peak calling,這樣一組樣本只會有一個peak calling的結果,這樣的作法投機取巧,丟失了生物學重複的意義,忽略重複樣本之間的異質性,簡單粗暴的當作1個樣原本進行操做算法

  2. 對多個生物學重複樣本的peak結果取交集,在取交集的過程當中,peak  calling的閾值,overlap區間的閾值都會對最終結果形成影響,因此這種方式的結果波動大,不夠穩定數據庫

  3. 採用IDR軟件評估生物學重複樣本間的相關性,並根據閾值篩選出最終的一組peak微信


IDR是Irreproducible Discovery Rata的縮寫,表明不可重複性率,是一個專門用於從多個生物學重複樣本的peak結果中提取高一致性peak區間的軟件,源代碼託管在github上,網址以下app

https://github.com/nboley/idrless

傳統分析中,經常採用斯皮爾曼相關性來衡量生物學重複樣本的一致性, 好比RNA_seq, 首選去除低丰度的基因,而後計算相關性。之因此要去除低丰度,是因爲低丰度的定量結果更多是噪音,而不是真實的信號,經過一個經驗閾值來區分噪聲和真實的信號。這種方法依賴閾值,不一樣的閾值結論也會有差別,並且只考慮了數值的排序,沒有考慮數值的差別。編輯器

在IDR軟件中,摒棄了這種用經驗閾值來區分signal和noise的方法,直接輸入所有的結果便可,軟件會自動根據在生物學重複樣本中的分佈來肯定合適的閾值,因此要強調一點,對於IDR的輸入文件,事先不須要作任何過濾和篩選,直接使用最原始的peak calling結果便可。學習

將signal和noise區分開以後,進一步將signal分紅reproducible和inreproducible 兩類, 默認狀況下只選取存在overlap的peak進行分析, 首先對其排序,排序的依據能夠是fold enrichment, pvalui或者qvalue,這個參數能夠調整,將全部信號排序以後給每一個信號賦值一個IDR value, 來衡量這個信號在生物重複樣本中的一致性,數值越大,不可重複性越高。最終根據IDR value的閾值,篩選小於閾值的peak便可。

IDR軟件的算法對數據的分佈沒有任何先驗假設,適用範圍普遍,Encode在其官方流程中也適用這個軟件來處理生物學重複的peak。該軟件用法也很是簡單,基本用法以下

idr --samples peak1 peak2 --peak-list merge.peak --plot

最基本的輸入文件爲每一個生物學重複樣本的peak calling結果, 用samples參數來存儲,多個樣本的結果用空格分隔,除此以外,還能夠提供生物學樣本合併以後的peak calling結果,用peak-list參數來調整,--plot參數對IDR value, rank的分佈等信息進行可視化。結果示意以下


默認狀況下統計IDR < 0.05的peak, 這個閾值能夠經過soft-idr-threshold參數來調整。在輸出文件中,保存的是全部peak的結果,須要本身經過IDR value的值來進行篩選,輸出文件的第12列記錄了peak對應的global  IDR value的值,經過這個值進行篩選便可。

經過IDR軟件能夠很方便的處理生物學重複樣本的peak calling結果,篩選出一組一致性高的peak。

·end·

—若是喜歡,快分享給你的朋友們吧—



原創不易,歡迎收藏,點贊,轉發!生信知識浩瀚如海,在生信學習的道路上,讓咱們一塊兒並肩做戰!
本公衆號深耕耘生信領域多年,具備豐富的數據分析經驗,致力於提供真正有價值的數據分析服務,擅長個性化分析,歡迎有須要的老師和同窗前來諮詢。
  更多精彩



  寫在最後

轉發本文至朋友圈,後臺私信截圖便可加入生信交流羣,和小夥伴一塊兒學習交流。


掃描下方二維碼,關注咱們,解鎖更多精彩內容!


一個只分享乾貨的

生信衆號


本文分享自微信公衆號 - 生信修煉手冊(shengxinxiulian)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索