使用IDR軟件處理生物學重複樣本的peak calling

歡迎關注」生信修煉手冊」!git

對於chip_seq, atac_seq等實驗而言，生物學重複樣本的peak calling結果很難徹底一致。對於多個生物學重複樣本的peak calling結果, 如何篩選出最終的能夠表明這一組樣本的peak是一個難題。github

目前常見的策略有如下幾種web

直接合並生物學重複樣本的reads, 而後進行peak calling,這樣一組樣本只會有一個peak calling的結果，這樣的作法投機取巧，丟失了生物學重複的意義，忽略重複樣本之間的異質性，簡單粗暴的當作1個樣原本進行操做算法
對多個生物學重複樣本的peak結果取交集，在取交集的過程當中，peak calling的閾值，overlap區間的閾值都會對最終結果形成影響，因此這種方式的結果波動大，不夠穩定數據庫
採用IDR軟件評估生物學重複樣本間的相關性，並根據閾值篩選出最終的一組peak微信

IDR是Irreproducible Discovery Rata的縮寫，表明不可重複性率，是一個專門用於從多個生物學重複樣本的peak結果中提取高一致性peak區間的軟件，源代碼託管在github上，網址以下app

https://github.com/nboley/idrless

傳統分析中，經常採用斯皮爾曼相關性來衡量生物學重複樣本的一致性，好比RNA_seq, 首選去除低丰度的基因，而後計算相關性。之因此要去除低丰度，是因爲低丰度的定量結果更多是噪音，而不是真實的信號，經過一個經驗閾值來區分噪聲和真實的信號。這種方法依賴閾值，不一樣的閾值結論也會有差別，並且只考慮了數值的排序，沒有考慮數值的差別。編輯器

在IDR軟件中，摒棄了這種用經驗閾值來區分signal和noise的方法，直接輸入所有的結果便可，軟件會自動根據在生物學重複樣本中的分佈來肯定合適的閾值，因此要強調一點，對於IDR的輸入文件，事先不須要作任何過濾和篩選，直接使用最原始的peak calling結果便可。學習

將signal和noise區分開以後，進一步將signal分紅reproducible和inreproducible 兩類，默認狀況下只選取存在overlap的peak進行分析, 首先對其排序，排序的依據能夠是fold enrichment, pvalui或者qvalue,這個參數能夠調整，將全部信號排序以後給每一個信號賦值一個IDR value, 來衡量這個信號在生物重複樣本中的一致性，數值越大，不可重複性越高。最終根據IDR value的閾值，篩選小於閾值的peak便可。

IDR軟件的算法對數據的分佈沒有任何先驗假設，適用範圍普遍，Encode在其官方流程中也適用這個軟件來處理生物學重複的peak。該軟件用法也很是簡單，基本用法以下

idr --samples peak1 peak2 --peak-list merge.peak --plot

最基本的輸入文件爲每一個生物學重複樣本的peak calling結果，用samples參數來存儲，多個樣本的結果用空格分隔，除此以外，還能夠提供生物學樣本合併以後的peak calling結果，用peak-list參數來調整，--plot參數對IDR value, rank的分佈等信息進行可視化。結果示意以下

默認狀況下統計IDR < 0.05的peak, 這個閾值能夠經過soft-idr-threshold參數來調整。在輸出文件中，保存的是全部peak的結果，須要本身經過IDR value的值來進行篩選，輸出文件的第12列記錄了peak對應的global IDR value的值，經過這個值進行篩選便可。

經過IDR軟件能夠很方便的處理生物學重複樣本的peak calling結果，篩選出一組一致性高的peak。

·end·

—若是喜歡，快分享給你的朋友們吧—

原創不易，歡迎收藏，點贊，轉發！生信知識浩瀚如海，在生信學習的道路上，讓咱們一塊兒並肩做戰！

本公衆號深耕耘生信領域多年，具備豐富的數據分析經驗，致力於提供真正有價值的數據分析服務，擅長個性化分析，歡迎有須要的老師和同窗前來諮詢。