最近寫了一些GWAS的學習筆記,但無疑TASSEL是最香的,發現對於編程界面,對不少朋友仍是不可逾越的障礙。確實,原本就不是作生信的,只是想利用GWAS分析一下,卻要學習Linux,學習R語言,學習Python,真是太難了。因此,TASSEL安排起來吧,畢竟纔是學習成本最低的,該有的都有了,還要什麼自行車???編程
順便再立個Flag,閱讀量超過1000,我錄製一下操做視頻,怎麼樣,三連走一波。。。微信
…………………………………………………………………………………………………………
學習
如下是原文
spa
…………………………………………………………………………………………………………….net
以前寫的Tassel說明文檔,雖然我都是使用命令行相關的軟件,可是我發現,Linux,命令行對大多數人仍是可望而不可即,分享一篇我作的說明文檔,用示例數據,一步一步進行GWAS分析。具體以下:命令行
目錄3d
1. 下載安裝軟件orm
2. 導入數據視頻
3. 處理數據blog
3.1 清洗數據
3.2 主成分分析
3.3 用基因標記估計系譜
3.4 用通常線性模型分析GLM
3.5 用混合線性模型分析
4. 歡迎關注個人微信公衆號
1. 下載安裝軟件
下載地址:http://tassel.bitbucket.org/
這裏下載的是win的64爲系統,截圖以下:
安裝成功後,打開菜單以下:
2. 導入數據
數據下載地址:http://tassel.bitbucket.org/
截圖以下:
打開data,load,選擇Make Best Guess
選擇幾個示例數據:
打開後的數據以下
裏面包括系譜數據、性狀數據和基因型數據(snp)。
3. 處理數據
3.1 清洗數據
選中mdp_trait,
而後選擇:Data中的TransformPhenotype,
能夠對數據進行轉化、標準化等操做,注意,要先對數據進行選擇,而後再進行操做:
也能夠對缺失值的數據進行刪除,點擊imput,Numerical impute,就會生成沒有缺失值的數據,這只是缺失值的不一樣替換方法。
3.2 主成分分析
主成分分析(PCA)是一種統計方法,它能夠將相互關聯的變量轉化爲獨立的主成分(PC),第一種成分包含最多的組分,其它依次下降。另外一個主成分的做用能夠用標記的主成分來表明羣體結構。這種方法比最大似然法節省時間。由於大部分的分子標記都是字符,須要先將其轉化爲數值,而後再進行主成分分析,通常將純合的標記用0代替,另外一個純合子用2代替,雜合的用1代替。PCA要求變量不能有缺失值,所以,在進行主成分分析時,須要對數據進行清洗,去除缺失值。
去掉頻率小於0.05的標記,能夠選擇Data,選擇Site,而後在最小頻率的框中鍵入0.05,而後選擇Remove minor SNP status,而後點擊Filter,進行過濾,模型以下:
選擇PCA,而後選擇5個主成分(默認項),點擊肯定,就會生成結果,模型以下:
結果以下:
3.3 用基因標記估計系譜
利用主成分分析能夠判斷羣體的結構特徵,可是若是利用系譜信息,這種結果會更加準確。能夠用基因型數據生成系譜信息,首先選中基因型數據,點擊Analysis,選擇Kinship
結果以下:
3.4 用通常線性模型分析GLM
下面咱們用GLM模型來分析示例數據,mdp_genotype.hmp.txt是snp數據,裏面有3093個標記,281個玉米自交系,另外一個文件是mdp_population_structure.txt,裏面是282個玉米自交系的羣體結構,還有一個是mdp_traits.txt,裏面是282玉米自交系的表型數據。
首先對基因型數據進行過濾,去掉頻率小於0.05的,最小的數目是150,點擊過濾,生成過濾後的基因型數據:
而後對數據進行個過濾,選擇開花期dpoll這個性狀,
進行協變量選擇,即選擇羣體結構的文件,這裏咱們去掉Q3,數據以下:
合併數據,將這三個過濾好的數據,選中進行合併,點擊Data IntersectJoin,
數據合併以下:
而後選中合併後的數據,用analysis ,GLM來進行分析
運行結果以下:
QQ圖:
P-value值:
3.5 用混合線性模型分析
混合模型須要添加系譜矩陣
點擊run
結果:
相關圖形:
4. 歡迎關注個人微信公衆號
名稱: 育種數據分析之放飛自我
ID: R-breeding
二維碼:
5. 後臺回覆:Tassel
下載軟件,以及說明文檔, 外加相關操做視頻。
順便再立個Flag,閱讀量超過1000,我錄製一下操做視頻,怎麼樣,三連走一波。。。
本文分享自微信公衆號 - 育種數據分析之放飛自我(R-breeding)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。