如何使用TASSEL l 作GWAS 說明文檔

最近寫了一些GWAS的學習筆記，但無疑TASSEL是最香的，發現對於編程界面，對不少朋友仍是不可逾越的障礙。確實，原本就不是作生信的，只是想利用GWAS分析一下，卻要學習Linux，學習R語言，學習Python，真是太難了。因此，TASSEL安排起來吧，畢竟纔是學習成本最低的，該有的都有了，還要什麼自行車？？？編程

順便再立個Flag，閱讀量超過1000，我錄製一下操做視頻，怎麼樣，三連走一波。。。微信

…………………………………………………………………………………………………………
學習

如下是原文
spa

…………………………………………………………………………………………………………….net

以前寫的Tassel說明文檔，雖然我都是使用命令行相關的軟件，可是我發現，Linux，命令行對大多數人仍是可望而不可即，分享一篇我作的說明文檔，用示例數據，一步一步進行GWAS分析。具體以下：命令行

目錄3d

1. 下載安裝軟件orm

2. 導入數據視頻

3. 處理數據blog

3.1 清洗數據

3.2 主成分分析

3.3 用基因標記估計系譜

3.4 用通常線性模型分析GLM

3.5 用混合線性模型分析

4. 歡迎關注個人微信公衆號

1. 下載安裝軟件

下載地址：http://tassel.bitbucket.org/

這裏下載的是win的64爲系統，截圖以下：

安裝成功後，打開菜單以下：

2. 導入數據

數據下載地址：http://tassel.bitbucket.org/

截圖以下：

打開data，load，選擇Make Best Guess

選擇幾個示例數據：

打開後的數據以下

裏面包括系譜數據、性狀數據和基因型數據（snp）。

3. 處理數據

3.1 清洗數據

選中mdp_trait，

而後選擇：Data中的TransformPhenotype，

能夠對數據進行轉化、標準化等操做，注意，要先對數據進行選擇，而後再進行操做：

也能夠對缺失值的數據進行刪除，點擊imput，Numerical impute，就會生成沒有缺失值的數據，這只是缺失值的不一樣替換方法。

3.2 主成分分析

主成分分析（PCA）是一種統計方法，它能夠將相互關聯的變量轉化爲獨立的主成分（PC），第一種成分包含最多的組分，其它依次下降。另外一個主成分的做用能夠用標記的主成分來表明羣體結構。這種方法比最大似然法節省時間。由於大部分的分子標記都是字符，須要先將其轉化爲數值，而後再進行主成分分析，通常將純合的標記用0代替，另外一個純合子用2代替，雜合的用1代替。PCA要求變量不能有缺失值，所以，在進行主成分分析時，須要對數據進行清洗，去除缺失值。

去掉頻率小於0.05的標記，能夠選擇Data,選擇Site，而後在最小頻率的框中鍵入0.05，而後選擇Remove minor SNP status，而後點擊Filter，進行過濾，模型以下：

選擇PCA，而後選擇5個主成分（默認項），點擊肯定，就會生成結果，模型以下：

結果以下：

3.3 用基因標記估計系譜

利用主成分分析能夠判斷羣體的結構特徵，可是若是利用系譜信息，這種結果會更加準確。能夠用基因型數據生成系譜信息，首先選中基因型數據，點擊Analysis，選擇Kinship

結果以下：

3.4 用通常線性模型分析GLM

下面咱們用GLM模型來分析示例數據，mdp_genotype.hmp.txt是snp數據，裏面有3093個標記，281個玉米自交系，另外一個文件是mdp_population_structure.txt，裏面是282個玉米自交系的羣體結構，還有一個是mdp_traits.txt，裏面是282玉米自交系的表型數據。

首先對基因型數據進行過濾，去掉頻率小於0.05的，最小的數目是150，點擊過濾，生成過濾後的基因型數據：

而後對數據進行個過濾，選擇開花期dpoll這個性狀，

進行協變量選擇，即選擇羣體結構的文件，這裏咱們去掉Q3，數據以下：

合併數據，將這三個過濾好的數據，選中進行合併，點擊Data IntersectJoin，

數據合併以下：

而後選中合併後的數據，用analysis ，GLM來進行分析

運行結果以下：

QQ圖：

P-value值：

3.5 用混合線性模型分析

混合模型須要添加系譜矩陣

點擊run

結果：

相關圖形：

4. 歡迎關注個人微信公衆號

名稱: 育種數據分析之放飛自我

ID: R-breeding

二維碼:

5. 後臺回覆：Tassel

下載軟件，以及說明文檔，外加相關操做視頻。

順便再立個Flag，閱讀量超過1000，我錄製一下操做視頻，怎麼樣，三連走一波。。。

本文分享自微信公衆號 - 育種數據分析之放飛自我（R-breeding）。
若有侵權，請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」，歡迎正在閱讀的你也加入，一塊兒分享。