RepeatMasker使用

RM是library-based,經過類似性比對來識別重複序列,能夠屏蔽序列中轉座子重複序列和低複雜度序列(默認將其替換成N)。使用數據庫Dfam和Repbase。html

The Dfam database is a collection of Repetitive DNA element sequence alignments, hidden Markov models (HMMs) and matches lists for complete Eukaryote genomes.數據庫

Repbase是由美國遺傳信息研究所(GIRI)建立並維護,收錄了轉座子和其餘重複序列及其註釋信息。less

本地安裝RepeatMasker,除了須要RepeatMasker主程序外,還須要TRF(Tandem Repeats Finder)、序列搜索引擎(以RMBlast爲例)以及Repbase數據庫。搜索引擎

搜索引擎能夠安裝多個,可是每次只能用一個。編碼

 

Using RepeatMasker to Identify Repetitive Elements in Genomic Sequencesspa

要屏蔽的區域:low-complexity DNA sequences and  interspersed repeats.net

比對引擎:cross_match WU-BLAST(更快)htm

若是DNA source沒有參考基因組,那麼須要用RECON或者RepeatScout創建一個Repbase類型的文件blog

 

安裝:索引

http://www.repeatmasker.org/RMDownload.html

sequence search engine

cross_match 要註冊啥的,沒搞

RMBlast blast的修改版本,此處用了2.2.28版本,須要下載http://www.repeatmasker.org/RMBlast.html

這裏的兩個binary,而後解壓就能夠了

HMMER 下載v3.1b2版本

ABBlast/WUBlast 也要註冊啥的,沒弄

TRF

下載TRF v4.0.4

Repeat database

下載Dfam和RepBase(要註冊下載)

裝完以後用./configure配置,修改好path就能夠了。

暫時設置RMBlast爲default。

 

 

最簡單的命令

RepeatMasker/RepeatMasker -species human sequence.fasta

最經常使用:

./RepeatMasker -species human -engine hmmer

除了控制檯輸出外,還會在同目錄下產生幾個文件:

輸入文件名.cat    //不懂

輸入文件名.masked  // 已屏蔽完的fasta序列

輸入文件名.out // 重複區域的統計信息,如類型,位置等

 

輸入文件名.tbl

各類統計信息

 

閾值設定:

-lib 指定數據庫,default是靈長類的

-cutoff 使用-lib時設置閾值,默認225。cutoff 值低的會有錯配。

-nolow 不去mask low-complexity DNA or simple repeats

-div sets the divergence level to limit the masking and annotation to a subset

of less diverged (younger) repeats.

速度設定:

-q 快

-qq  更快

-s 慢就更靈敏

-pa 若是有多個輸入或者輸入很大,能夠考慮多處理器加速

-w WU-BLAST比cross_match快,可是後者更準確

 

若是長序列效果很差,能夠修改RepeatMasker中的$maxsize,改大,可是內存需求也會變大

或者切斷

若是空間不足,RM不會報錯,可能會有貌似正確的結果

若是用了WU-BLAST,最好用-s

短序列(<2kb)的可能精確度差一點

 

轉座子transposon

一類DNA序列,它們可以在基因組中轉錄或逆轉錄,在內切酶的做用下,在其餘基因座上出現。I型轉座子即反轉錄轉座子,該型轉座子會先被轉錄爲RNA,而後利用逆轉錄酶將該RNA逆轉錄爲cDNA,而後才被插入到目標位點中。「複製-粘貼」。II型轉座子也稱不復制轉座子,其序列兩端是兩段直接重複序列(direct repeat, dR),與它們接壤的是反向重複序列(invert repeat, iR),中間是插入序列(insert sequence, IS)。因此II型的中間體就是其自己,「剪切-粘貼」。

假基因是一類原本正常,而後由於突變或轉座而可能失去原來功能的基因。在環境壓力下,某些假基因能夠從新被激活,而某些假基因則有着調控基因表達的做用。可總結爲「假做真時真亦假」。它們與原來的基因可能很類似,但又能夠有很大差別。

人體約有40%的DNA與逆轉錄病毒有關,其中7.7%的DNA與逆轉錄病毒很是類似,稱之爲內源逆轉錄病毒(endogenous retrovirus, ERV)。

 

病毒兩端有兩條相同的序列,LTR(long terminal repear),LTR不編碼蛋白,主要起調控做用。中間三段基因,gag編碼了衣殼蛋白等結構蛋白,pol編碼了逆轉錄酶、整合酶、蛋白酶這些病毒複製須要的酶,env編碼了病毒包膜的糖蛋白。全部的逆轉錄病毒都有這三個基因。人類的內源逆轉錄病毒HERV也有這三段基因和兩個LTR,也能夠像逆轉錄病毒同樣,逆轉錄到別處。HERV多是好久以前感染過人體胚胎,而後逐漸擴增到7.7%的規模,可是已經變異失去了製造病毒顆粒的能力。

 

逆轉錄轉座子retrotransposon不包含env,多是逆轉錄病毒的來源。全部反轉錄轉座子都有一個共同特色,就是在其插入位點上產生短的正向重複序列。它是許多真核生物中數量最大的一類可活動遺傳成分。在植物中特別豐富,它們是核DNA的一個主要組成部分。哺乳動物中,幾乎有一半的基因組包含轉座子或殘餘轉座子。

LINE中有編碼與逆轉錄酶/整合酶類似活性的酶,因此可能也能逆轉錄;長度6K

 

SINE中則沒有編碼逆轉錄酶,(須要在細胞內已有的酶系統的做用下進行轉座)多是在LINE輔助下進行逆轉錄和整合的。Alu是屬於SINE的。長度約300bp

 

近年的研究顯示,靈長目LTR逆轉座子已固定在基因組中,已無轉座活性(Lander et al.,2001);靈長目動物基因組中仍有轉座活性的元件是non-LTR逆轉座子,主要包括長散在重複元件LINE1(long interspersed element 1,L1)、Alu元件、SVA元件等

L1是人類基因組中惟一的自主性逆轉座子,其拷貝佔17%,但只有極少數有轉座活性,其中6個活性最高的L1拷貝介導了大部分L1轉座活動。

Alu元件不能編碼逆轉錄酶,屬於非自主轉座子,它們利用L1編碼ORF2的逆轉錄酶進行逆轉座活動。屬於SINE。是靈長類動物基因組中數量最豐富的逆轉座子。

典型的SVA元件長約2 kb。SVA逆轉座子起源最晚,是人科動物中特有的逆轉座子,屬於SINE家族中的一員。

 

逆轉座子對基因組結構的影響來源有兩種,一是逆轉座過程自己,一是其產生的同源序列:

逆轉座過程對基因組結構的影響:

1.插入突變

逆轉座子對插入位點有選擇性

2.側翼序列轉導

轉座時,除了對自身進行轉錄,有時也會將上下游的側翼序列進行轉錄。側翼序列轉導可將原本不連鎖的基因鏈接起來,對新基因的造成和基因組的進化都有着重要做用。

3.基因逆轉座

基因逆轉座(gene retrotranspositon)是指只有基因序列發生逆轉座,而不伴隨逆轉座子的轉座過程。有時候,一些mRNA能夠採起和Alu、SVA相同的策略,捕獲L1的逆轉錄元件從而逆轉錄插入到基因組中。複製到新位點的基因來源於mRNA的逆轉錄,所以並不含有上游調控區域,除非得到新的調控區域,這些基因即成爲逆轉座的假基因(retropseudogene)

4.DNA雙鏈斷裂

5.側翼序列切除

當L1和Alu插入基因組新位點時,可能會引發鄰近基因組序列的缺失。

逆轉座子同源序列對基因組結構的影響:

1.DNA雙鏈斷裂的修復

2.異常重組

3.微衛星的造成

微衛星(microsatellite)也叫短串聯重複序列(short t and em repeat,STR)或簡單重複序列,是由幾個(多爲2~4個)鹼基對做爲核心單位,串聯重複造成的一類DNA序列。

 

ucsc的repeat數據,其分類以下面連接所示

https://blog.csdn.net/tanzuozhev/article/details/80958785

相關文章
相關標籤/搜索