須要瞭解的知識點:html
測序儀原理數據庫
1、數據下載服務器
生物信息學常見的數據下載,包括基因組,gtf,bed,註釋app
http://www.biotrainee.com/thread-857-1-1.html測試
各版本對應關係:spa
http://www.bio-info-trainee.com/1469.html(生信技能樹)htm
測試數據及參考基因組準備:md5
http://www.biotrainee.com:8080/thread-731-1-7.htmlci
變異位點數據庫準備:get
http://www.biotrainee.com:8080/thread-733-1-7.html
人的基因組測序數據:
https://www.ncbi.nlm.nih.gov/sra/?term=SRX252522
另外一我的的基因組測序數據:
https://www.ncbi.nlm.nih.gov/sra/?term=SRX247249
KPGP-00001樣本數據:
網址是ftp://ftp.kobic.re.kr/pub/KPGP/2015_release_candidate/WGS/KPGP-00001/
,你們在本身的服務器敲這個命令就行了:
我會同步處理這個數據,還有我本身的數據。下載完了以後,用md5文件進行校驗一下(該截圖是未徹底下載的例子,只是想說md5碼相同表明下載徹底)
2、數據分析流程
變異分析流程:
http://www.biotrainee.com:8080/thread-736-1-1.html(生信技能樹)
http://www.htslib.org/workflow/(Heng L)
http://www.bio-info-trainee.com/1114.html(生信菜鳥團)
一、測序數據質量評估:
Rawreads:統計原始序列雙端read pair總數目;根據FASTQ的格式,以四行爲一個單位進行統計。
Raw data:統計原始序列數據量。
Effective:過濾後用於後續的生物信息分析的Clean reads佔原始數據的比例。
Error rate:經過公式一計算獲得。
Q20、Q30:分別計算 Phred 數值大於20、30的鹼基佔整體鹼基的百分比。
GC content:計算鹼基G和C的數量總和佔總的鹼基數量的百分比。
二、參考序列比對分析
參考序列比對分析也是重點,若是測了一大堆的序列,都沒法比對到人的基因組上面,或有傾向性的比對到部分基因組,又或者基因組某些區域沒有覆蓋到,那再好的數據也是白瞎!下面這幅圖就打消了個人疑慮!
經過這幅圖能夠看到,該公司的測序數據能較好的覆蓋基因組的全部染色體,覆蓋率都近似於100%,因此根據這個數據,我能夠充分地的對個人基因組中的每個基因是否跟參考基因組有區別,有哪些區別進行全面分析!並且平均測序深度也比合同規定的30X要超出不少!
Total:clean data雙端總reads數目
Duplicate:重複的reads數目
Mapped:比對到參考基因組上的總reads數目(比例)
Properlymapped:比對到參考基因組且方向正確的reads數目(比例)
PEmapped:雙端reads比對到參考基因組上的reads數目(比例)
SEmapped:僅單端read比對到參考基因組上的reads數目(比例)
withmate mapped to a different chr:比對到不一樣染色體的reads數目
withmate mapped to a different chr (mapQ>=5):比對到不一樣染色體且比對質量不低於5的reads數目
Average_sequencing_depth::比對到參考基因組的平均測序深度(測序數據量/基因組大小)
Coverage:比對數據對全基因組區域的覆蓋度(鹼基覆蓋長度佔全基因組鹼基總長的比例)
Coverage_at_least_4X::全基因組區域中鹼基覆蓋深度不低於4X的比例
Coverage_at_least_10X:全基因組區域中鹼基覆蓋深度不低於10X的比例
Coverage_at_least_20X:全基因組區域中鹼基覆蓋深度不低於20X的比例
科研與臨牀分析比對
http://www.biotrainee.com:8080/thread-707-1-1.html