擴增子分析解讀1質控 實驗設計 雙端序列合併

本文采用目前最主流的擴增子測序數據類型HiSeq2500 PE250類型數據爲例,結合目前主流方法QIIME+USearch定製的分析流程。本課程中所需的測序數據、實驗設計和課程分析生成的中間文件,都可以直去百度雲下載。連接:http://pan.baidu.com/s/1hs1PXcw 密碼:y33d
 
本課程代碼的運行,至少須要Linux平臺+安裝QIIME 1
 
分析前準備
# 創建工做目錄並進入,-p參數爲若是文件夾存在不報錯
mkdir -p example_PE250
cd example_PE250
# 建臨時文件和結果子目錄
mkdir -p temp result
 
1. 測序數據文件
16S擴增子測序數據主要來自HiSeq2500產出的雙端各250 bp (PE250)數據,由於讀長長且價格便宜(性價比高)。HiSeqX PE150和MiSeq PE300也比較常見,但PE150太短分辨率低,而PE300價格高且末端序列質量太低。此外454在以前研究較多但設備已經停產,PacBio讀長長可直接測序16S全長1.5kb表明將來的趨勢。
 
測序公司一般會返回raw data和clean data兩種數據,raw data爲測序得到的原始數據,而clean data則爲去除含有接頭序列及測序不肯定N比例較高的結果,一般直接採用clean data進行質量評估及後續分析。
 
質量評估經常使用fastqc,通常測序結果文件會附帶評估報告,質量太差會重測,此步非用戶必須
 
準備兩個數據文件PE250_1.fq.gz和PE250_2.fq.gz至工做目錄,一共600M,包括2,500,000條fastq格式的雙端250bp數據。(提示:能夠在Windows上下載,使用filezilla等工具上傳服務器)
 
安裝fastqc,己安裝請跳過,未安裝詳見 http://www.cnblogs.com/freescience/p/7277556.html
 
若是系統中己安裝過fastqc可直接運行fastqc -t 2 *.fq.gz便可。-t爲設置線程數,建議與數據文件數量相同最佳,能夠提升評估速度,*.fq.gz爲輸入文件,能夠用*通配符指定多個文件。
 
運行結果每一個數據會生成兩個文件,以下
PE250_1_fastqc.html # 網頁評估報告
PE250_1_fastqc.zip # 網頁報告相關文本和圖片壓縮包
數據質量以下:上爲左端1-250質量;下爲右端1-250質量分佈箱線圖

能夠看到左端的質量比較高(圖中綠、黃、紅區域分別表明質量優、良、差);右端序列末端質量較次,且箱體也進入紅色差區,但中位數紅線位於綠色高質量區。這樣的結果已經算是中等偏上的了,在PE250測序中,右端的尾部質量都降低很嚴重,但只要左端的末端較好便可,雙端序列合併可進行校訂,通常均可以放心使用。
 
2. 實驗設計文件
在QIIME中,把實驗設計文件叫mappingfile,你們下載mappingfile.txt文件;本身的實驗必定要按照示例的格式模仿填寫,如錯誤後續沒法運行。QIIME自帶了個工具,能夠檢驗文件書寫是否正確。
# 先激活工做環境
source activate qiime1
# 關閉工做環境:不用時關閉,否則你其它程序可能會出錯
source deactivate
# 驗證明驗設計是否有錯誤
validate_mapping_file.py -m mappingfile.txt
運行結果會輸出三個文件
mappingfile_corrected.txt # 自動修正的實驗設計,小錯誤會自動修改,但末必符合你的要求,不建議直接使用
mappingfile.html # 結果的錯誤報告,可下載查看網頁,會高亮顯示錯誤的位置
mappingfile.log # 運行結果報告
運行結果無誤會顯示 「No errors or warnings were found in mapping file.」。有錯誤建議查看生成的網頁報告,高亮有錯誤的地方,自行修改後從新檢測,直到無誤。更多說明建議閱讀幫助http://qiime.org/scripts/validate_mapping_file.html
 
3. 雙端序列合併
咱們首先的任務是把雙端序列合併,根據兩端序列末端的互補配對,能夠合變爲咱們擴增區域的序列,同時還能夠對重疊區的質量進行校訂,保留最高測序質量的鹼基結果。使用join_paired_ends.py腳本,合併兩個文件爲單個。f/r參數爲輸入左和右端序列,支持壓縮格式*.gz;m是選擇方法,默認爲fastq-join就能夠了,也能夠選擇SeqPrep,更好但更慢;o爲輸出文件目錄。更多說明建議閱讀幫助 http://qiime.org/scripts/join_paired_ends.html
# 雙端序列合併
join_paired_ends.py -f PE250_1.fq.gz -r PE250_2.fq.gz -m fastq-join -o temp/PE250_join
序列合併完,咱們會在設置的輸出目錄temp/PE250_join看到3個文件,以下:
fastqjoin.join.fastq # 合併成功的序列
fastqjoin.un1.fastq # 左端未合併成功的序列
fastqjoin.un2.fastq # 右端未合併成功的序列
咱們下游分析一般只對fastqjoin.join.fastq進行操做
相關文章
相關標籤/搜索