RM是library-based,經過類似性比對來識別重複序列,能夠屏蔽序列中轉座子重複序列和低複雜度序列(默認將其替換成N)。使用數據庫Dfam和Repbase。html
The Dfam database is a collection of Repetitive DNA element sequence alignments, hidden Markov models (HMMs) and matches lists for complete Eukaryote genomes.數據庫
Repbase是由美國遺傳信息研究所(GIRI)建立並維護,收錄了轉座子和其餘重複序列及其註釋信息。less
本地安裝RepeatMasker,除了須要RepeatMasker主程序外,還須要TRF(Tandem Repeats Finder)、序列搜索引擎(以RMBlast爲例)以及Repbase數據庫。搜索引擎
搜索引擎能夠安裝多個,可是每次只能用一個。編碼
Using RepeatMasker to Identify Repetitive Elements in Genomic Sequencesspa
要屏蔽的區域:low-complexity DNA sequences and interspersed repeats.net
比對引擎:cross_match WU-BLAST(更快)htm
若是DNA source沒有參考基因組,那麼須要用RECON或者RepeatScout創建一個Repbase類型的文件blog
安裝:索引
http://www.repeatmasker.org/RMDownload.html
sequence search engine
cross_match 要註冊啥的,沒搞
RMBlast blast的修改版本,此處用了2.2.28版本,須要下載http://www.repeatmasker.org/RMBlast.html
這裏的兩個binary,而後解壓就能夠了
HMMER 下載v3.1b2版本
ABBlast/WUBlast 也要註冊啥的,沒弄
TRF
下載TRF v4.0.4
Repeat database
下載Dfam和RepBase(要註冊下載)
裝完以後用./configure配置,修改好path就能夠了。
暫時設置RMBlast爲default。
最簡單的命令
RepeatMasker/RepeatMasker -species human sequence.fasta
最經常使用:
./RepeatMasker -species human -engine hmmer
除了控制檯輸出外,還會在同目錄下產生幾個文件:
輸入文件名.cat //不懂
輸入文件名.masked // 已屏蔽完的fasta序列
輸入文件名.out // 重複區域的統計信息,如類型,位置等
輸入文件名.tbl
各類統計信息
閾值設定:
-lib 指定數據庫,default是靈長類的
-cutoff 使用-lib時設置閾值,默認225。cutoff 值低的會有錯配。
-nolow 不去mask low-complexity DNA or simple repeats
-div sets the divergence level to limit the masking and annotation to a subset
of less diverged (younger) repeats.
速度設定:
-q 快
-qq 更快
-s 慢就更靈敏
-pa 若是有多個輸入或者輸入很大,能夠考慮多處理器加速
-w WU-BLAST比cross_match快,可是後者更準確
若是長序列效果很差,能夠修改RepeatMasker中的$maxsize,改大,可是內存需求也會變大
或者切斷
若是空間不足,RM不會報錯,可能會有貌似正確的結果
若是用了WU-BLAST,最好用-s
短序列(<2kb)的可能精確度差一點
轉座子transposon
一類DNA序列,它們可以在基因組中轉錄或逆轉錄,在內切酶的做用下,在其餘基因座上出現。I型轉座子即反轉錄轉座子,該型轉座子會先被轉錄爲RNA,而後利用逆轉錄酶將該RNA逆轉錄爲cDNA,而後才被插入到目標位點中。「複製-粘貼」。II型轉座子也稱不復制轉座子,其序列兩端是兩段直接重複序列(direct repeat, dR),與它們接壤的是反向重複序列(invert repeat, iR),中間是插入序列(insert sequence, IS)。因此II型的中間體就是其自己,「剪切-粘貼」。
假基因是一類原本正常,而後由於突變或轉座而可能失去原來功能的基因。在環境壓力下,某些假基因能夠從新被激活,而某些假基因則有着調控基因表達的做用。可總結爲「假做真時真亦假」。它們與原來的基因可能很類似,但又能夠有很大差別。
人體約有40%的DNA與逆轉錄病毒有關,其中7.7%的DNA與逆轉錄病毒很是類似,稱之爲內源逆轉錄病毒(endogenous retrovirus, ERV)。
病毒兩端有兩條相同的序列,LTR(long terminal repear),LTR不編碼蛋白,主要起調控做用。中間三段基因,gag編碼了衣殼蛋白等結構蛋白,pol編碼了逆轉錄酶、整合酶、蛋白酶這些病毒複製須要的酶,env編碼了病毒包膜的糖蛋白。全部的逆轉錄病毒都有這三個基因。人類的內源逆轉錄病毒HERV也有這三段基因和兩個LTR,也能夠像逆轉錄病毒同樣,逆轉錄到別處。HERV多是好久以前感染過人體胚胎,而後逐漸擴增到7.7%的規模,可是已經變異失去了製造病毒顆粒的能力。
逆轉錄轉座子retrotransposon不包含env,多是逆轉錄病毒的來源。全部反轉錄轉座子都有一個共同特色,就是在其插入位點上產生短的正向重複序列。它是許多真核生物中數量最大的一類可活動遺傳成分。在植物中特別豐富,它們是核DNA的一個主要組成部分。哺乳動物中,幾乎有一半的基因組包含轉座子或殘餘轉座子。
LINE中有編碼與逆轉錄酶/整合酶類似活性的酶,因此可能也能逆轉錄;長度6K
SINE中則沒有編碼逆轉錄酶,(須要在細胞內已有的酶系統的做用下進行轉座)多是在LINE輔助下進行逆轉錄和整合的。Alu是屬於SINE的。長度約300bp
近年的研究顯示,靈長目LTR逆轉座子已固定在基因組中,已無轉座活性(Lander et al.,2001);靈長目動物基因組中仍有轉座活性的元件是non-LTR逆轉座子,主要包括長散在重複元件LINE1(long interspersed element 1,L1)、Alu元件、SVA元件等
L1是人類基因組中惟一的自主性逆轉座子,其拷貝佔17%,但只有極少數有轉座活性,其中6個活性最高的L1拷貝介導了大部分L1轉座活動。
Alu元件不能編碼逆轉錄酶,屬於非自主轉座子,它們利用L1編碼ORF2的逆轉錄酶進行逆轉座活動。屬於SINE。是靈長類動物基因組中數量最豐富的逆轉座子。
典型的SVA元件長約2 kb。SVA逆轉座子起源最晚,是人科動物中特有的逆轉座子,屬於SINE家族中的一員。
逆轉座子對基因組結構的影響來源有兩種,一是逆轉座過程自己,一是其產生的同源序列:
逆轉座過程對基因組結構的影響:
1.插入突變
逆轉座子對插入位點有選擇性
2.側翼序列轉導
轉座時,除了對自身進行轉錄,有時也會將上下游的側翼序列進行轉錄。側翼序列轉導可將原本不連鎖的基因鏈接起來,對新基因的造成和基因組的進化都有着重要做用。
3.基因逆轉座
基因逆轉座(gene retrotranspositon)是指只有基因序列發生逆轉座,而不伴隨逆轉座子的轉座過程。有時候,一些mRNA能夠採起和Alu、SVA相同的策略,捕獲L1的逆轉錄元件從而逆轉錄插入到基因組中。複製到新位點的基因來源於mRNA的逆轉錄,所以並不含有上游調控區域,除非得到新的調控區域,這些基因即成爲逆轉座的假基因(retropseudogene)
4.DNA雙鏈斷裂
5.側翼序列切除
當L1和Alu插入基因組新位點時,可能會引發鄰近基因組序列的缺失。
逆轉座子同源序列對基因組結構的影響:
1.DNA雙鏈斷裂的修復
2.異常重組
3.微衛星的造成
微衛星(microsatellite)也叫短串聯重複序列(short t and em repeat,STR)或簡單重複序列,是由幾個(多爲2~4個)鹼基對做爲核心單位,串聯重複造成的一類DNA序列。
ucsc的repeat數據,其分類以下面連接所示