擴增子分析解讀1質控實驗設計雙端序列合併

時間 2019-12-13

標籤擴增分析解讀實驗設計雙端序列合併简体版

原文原文鏈接

本文采用目前最主流的擴增子測序數據類型HiSeq2500 PE250類型數據爲例，結合目前主流方法QIIME+USearch定製的分析流程。本課程中所需的測序數據、實驗設計和課程分析生成的中間文件，都可以直去百度雲下載。連接：http://pan.baidu.com/s/1hs1PXcw 密碼：y33d

本課程代碼的運行，至少須要Linux平臺+安裝QIIME 1

分析前準備

# 創建工做目錄並進入，-p參數爲若是文件夾存在不報錯

mkdir -p example_PE250
cd example_PE250

# 建臨時文件和結果子目錄

mkdir -p temp result

1. 測序數據文件

16S擴增子測序數據主要來自HiSeq2500產出的雙端各250 bp (PE250)數據，由於讀長長且價格便宜(性價比高)。HiSeqX PE150和MiSeq PE300也比較常見，但PE150太短分辨率低，而PE300價格高且末端序列質量太低。此外454在以前研究較多但設備已經停產，PacBio讀長長可直接測序16S全長1.5kb表明將來的趨勢。

測序公司一般會返回raw data和clean data兩種數據，raw data爲測序得到的原始數據，而clean data則爲去除含有接頭序列及測序不肯定N比例較高的結果，一般直接採用clean data進行質量評估及後續分析。

質量評估經常使用fastqc，通常測序結果文件會附帶評估報告，質量太差會重測，此步非用戶必須

準備兩個數據文件PE250_1.fq.gz和PE250_2.fq.gz至工做目錄，一共600M，包括2,500,000條fastq格式的雙端250bp數據。(提示：能夠在Windows上下載，使用filezilla等工具上傳服務器)

安裝fastqc，己安裝請跳過，未安裝詳見 http://www.cnblogs.com/freescience/p/7277556.html

若是系統中己安裝過fastqc可直接運行fastqc -t 2 *.fq.gz便可。-t爲設置線程數，建議與數據文件數量相同最佳，能夠提升評估速度，*.fq.gz爲輸入文件，能夠用*通配符指定多個文件。

運行結果每一個數據會生成兩個文件，以下

PE250_1_fastqc.html # 網頁評估報告

PE250_1_fastqc.zip # 網頁報告相關文本和圖片壓縮包

數據質量以下：上爲左端1-250質量；下爲右端1-250質量分佈箱線圖

能夠看到左端的質量比較高(圖中綠、黃、紅區域分別表明質量優、良、差)；右端序列末端質量較次，且箱體也進入紅色差區，但中位數紅線位於綠色高質量區。這樣的結果已經算是中等偏上的了，在PE250測序中，右端的尾部質量都降低很嚴重，但只要左端的末端較好便可，雙端序列合併可進行校訂，通常均可以放心使用。

2. 實驗設計文件

在QIIME中，把實驗設計文件叫mappingfile，你們下載mappingfile.txt文件；本身的實驗必定要按照示例的格式模仿填寫，如錯誤後續沒法運行。QIIME自帶了個工具，能夠檢驗文件書寫是否正確。

# 先激活工做環境
source activate qiime1
# 關閉工做環境：不用時關閉，否則你其它程序可能會出錯
source deactivate
# 驗證明驗設計是否有錯誤
validate_mapping_file.py -m mappingfile.txt

運行結果會輸出三個文件

mappingfile_corrected.txt # 自動修正的實驗設計，小錯誤會自動修改，但末必符合你的要求，不建議直接使用

mappingfile.html # 結果的錯誤報告，可下載查看網頁，會高亮顯示錯誤的位置

mappingfile.log # 運行結果報告

運行結果無誤會顯示「No errors or warnings were found in mapping file.」。有錯誤建議查看生成的網頁報告，高亮有錯誤的地方，自行修改後從新檢測，直到無誤。更多說明建議閱讀幫助http://qiime.org/scripts/validate_mapping_file.html

3. 雙端序列合併

咱們首先的任務是把雙端序列合併，根據兩端序列末端的互補配對，能夠合變爲咱們擴增區域的序列，同時還能夠對重疊區的質量進行校訂，保留最高測序質量的鹼基結果。使用join_paired_ends.py腳本，合併兩個文件爲單個。f/r參數爲輸入左和右端序列，支持壓縮格式*.gz；m是選擇方法，默認爲fastq-join就能夠了，也能夠選擇SeqPrep，更好但更慢；o爲輸出文件目錄。更多說明建議閱讀幫助 http://qiime.org/scripts/join_paired_ends.html

# 雙端序列合併
join_paired_ends.py -f PE250_1.fq.gz -r PE250_2.fq.gz -m fastq-join -o temp/PE250_join

序列合併完，咱們會在設置的輸出目錄temp/PE250_join看到3個文件，以下：

fastqjoin.join.fastq # 合併成功的序列

fastqjoin.un1.fastq # 左端未合併成功的序列

fastqjoin.un2.fastq # 右端未合併成功的序列

咱們下游分析一般只對fastqjoin.join.fastq進行操做

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

擴增子分析解讀1質控 實驗設計 雙端序列合併

擴增子分析解讀1質控實驗設計雙端序列合併