cellranger更新到4啦(全新使用教程)

目前單細胞轉錄組以10X公司爲主流,咱們也是在單細胞天地公衆號詳細介紹了cellranger流程,你們能夠自行前往學習,以下:html

可是這個兩年前的系列筆記是基於V2,V3版本的cellranger,目前呢它更新到了版本4,有一些改變,因此有必要再總結一個筆記web

軟件下載及安裝

一樣的,須要本身簡單註冊後就能夠獲取wget下載地址,由於版權的問題,我這裏就不復制粘貼出來地址啦,反正簡單填寫郵箱便可註冊拿到地址。數據庫

註冊網頁是: https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latestexpress


通常來講,軟件以及配套的數據庫都須要下載,下載速度呢,就取決於你本身的網路狀況啦,反正在中國大陸地區下載確定會很慢的,建議nohup到後臺,等一個晚上便可,我下面秀給你看兩個不一樣的速度狀況:服務器


下載成功後的文件夾以下所示:微信

972M Jul  4 05:18 cellranger-4.0.0.tar.gz
11G Jun 23 02:04 refdata-gex-GRCh38-2020-A.tar.gz

由於不作小鼠的數據,因此我只是下載了 refdata-gex-GRCh38-2020-A.tar.gz 這個數據庫文件。編輯器

再看看咱們的10x下機後的fastq數據文件

10X單細胞數據比較特殊,它的測序文庫中包括index、barcode、UMI和測序reads。利用mkfastq或者bcl2fastq生成的文件,大概長這樣:ide


能夠看到,截圖裏面是兩個樣本,其中一個樣本有4次測序文件,每次測序文件都是 I1,R1,R2這3個fastq文件。工具

官網給指出來了文件名規則:https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/2.0/using/fastq-input#wrongname ,若是你的fastq數據不是這樣命名,就須要自行更改過來了,我上面截圖的就是須要修改的,由於裏面混入了AK這樣的編號。學習

若是要理解這3個文件的區別,同理,也是須要本身去學習瞭解10x的原理,我這裏就再也不贅述:

  • 首先,1-26個cycle就是測序獲得了26個鹼基,先是16個Barcode鹼基,而後是10個UMI鹼基;

  • 而後,27-34這8個cycle獲得了8個鹼基,就是i7的sample index;

  • 最後35-132個cycle獲得了98個鹼基,就是轉錄本reads

使用Cell Ranger

Cell Ranger主要的流程有:拆分數據 mkfastq、細胞定量 count、定量組合 aggr、調參reanalyze,還有一些小工具好比mkref、mkgtf、upload、sitecheck、mat2csv、vdj、mkvdjref、testrun。

可是,大機率上,咱們只須要使用它的定量流程,就是 cellranger count 命令,教程在consult Running 10x Pipelines on FASTQ Files,主要就是須要把軟件和配套的數據庫文件,以及10x的fastq文件準備好。

以下所示:

bin=../pipeline/cellranger-4.0.0/bin/cellranger
db=../pipeline/refdata-gex-GRCh38-2020-A
fq_dir=../raw/HP4540_2
$bin count --id=HP4540-2 \
--localcores=4 \
--transcriptome=$db \
--fastqs=$fq_dir \
--sample=HP4540-2 \
--expect-cells=5000

是否是超級簡單,值得注意的是我把樣本名字進行了修改,才成功運行這個 cellranger count 命令。服務器配置不同,這個cellranger count流程運行時間不同,我上面截圖的一個樣本是60G的fq文件數據走這個流程是5小時。

輸出文件超級多,以下所示:


簡單介紹以下:

  • web_summary.html:這個是必需要看的,粗略瀏覽本次10x樣本走cellranger count流程的運行質量

  • metrics_summary.csv:CSV格式數據摘要,能夠不看

  • possorted_genome_bam.bam:比對文件,超級大的bam文件,能夠不看

  • possorted_genome_bam.bam.bai:前面bam文件的索引文件,能夠不看

  • filtered_gene_bc_matrices:是超級重要的一個目錄,下面又包含了 barcodes.tsv.gz、features.tsv.gz、matrix.mtx.gz,是下游Seurat、Scater、Monocle等分析的輸入文件

    • outs/filtered_feature_bc_matrix/matrix.mtx.gz
      outs/filtered_feature_bc_matrix/features.tsv.gz
      outs/filtered_feature_bc_matrix/barcodes.tsv.gz
  • filtered_feature_bc_matrix.h5:過濾掉的barcode信息HDF5 format,能夠不看

  • raw_feature_bc_matrix:原始barcode信息,能夠不看

  • raw_feature_bc_matrix.h5:原始barcode信息HDF5 format,能夠不看

  • analysis:數據分析目錄,下面又包含聚類clustering(有graph-based & k-means)、差別分析diffexp、主成分線性降維分析pca、非線性降維tsne,由於咱們會本身走Seurat、Scater、Monocle等分析,因此這個也不看。

  • molecule_info.h5:進行aggregate使用的文件,能夠暫時不看

  • cloupe.cloupe:官方可視化工具Loupe Cell Browser 輸入文件,咱們一般不須要可視化軟件,能夠不看

10X單細胞轉錄組免費分析

我最近成功招募了幾個實習生,因此能夠繼續開啓免費數據分析活動啦。其實數據分析對我來講其實就沒有成本,無非就是跑一下流程,關鍵是溝通起來太費勁,你們只須要把10X單細胞轉錄組的fq數據給到我,我就免費給你們跑流程,以及出幾百個圖表給到你。可是我不會給你解釋任何細節知識點,也不要試圖添加我微信哈,絕大部分生信技能樹粉絲都沒有機會加我微信。已經屢次滿了5000好友,因此我開通了一個微信好友,前100名添加我,僅需150元便可,3折優惠期機會不容錯過哈。個人微信小號二維碼在:0元,10小時教學視頻直播《跟着百度李彥宏學習腫瘤基因組測序數據分析》

我會安排實習生去給你解釋個人10X單細胞轉錄組的結果和圖表,固然了,你也能夠本身學,課題設計能夠看咱們之前的教程:

還有:使用seurat3的merge功能整合8個10X單細胞轉錄組樣本seurat3的merge功能和cellranger的aggr整合多個10X單細胞轉錄組對比

技術細節能夠看:

另外,我創立了《單細胞天地》這個公衆號,而且製做了兩個視頻:

全網第一個單細胞課程(免費基礎課程)
  • 免費學習地址在B站:https://www.bilibili.com/video/av38741055 ,歡迎提問彈幕交流!
  • 務必聽課後完成結業考覈20題:https://mp.weixin.qq.com/s/lpoHhZqi-_ASUaIfpnX96w
  • 課程配套資料文檔在:https://docs.qq.com/doc/DT2NwV0Fab3JBRUx0
技能樹出品的第二個單細胞課程(進階課程,仍然免費)
  • 詳情請自行閱讀介紹 https://mp.weixin.qq.com/s/bLfO-8ri_SNUepGs4UwRQw
  • 本課程長期答疑文檔,https://docs.qq.com/doc/DT0FxbEpHYU5ZVlpu

由於課程涉及到知識點太多,因此我拆分紅爲了5個子課程,歡迎B站提問彈幕交流!所有連接是:

  • 「生信技能樹」單細胞進階數據處理之文獻導讀,連接是:https://www.bilibili.com/video/BV17f4y1R7N8
  • 「生信技能樹」使用10X單細胞轉錄組數據探索免疫治療,連接是:https://www.bilibili.com/video/BV1xD4y1S74P
  • 「生信技能樹」單細胞基因組數據拷貝數變異分析流程,連接是:https://www.bilibili.com/video/BV1Yf4y1R75R
  • 「生信技能樹」雲服務器處理單細胞轉錄組數據,連接是:https://www.bilibili.com/video/BV154411Z7DU
  • 「生信技能樹」使用Smart-seq2單細胞轉錄組數據探索小鼠性腺發育,連接是:https://www.bilibili.com/video/BV1454y1q77Z

也但願能夠幫助到你。

其它數據分析也免費

前面的優秀本科生活動, 已經帶領了近100名優秀本科生了解生物信息學相關畢業設計:這120萬我就不要了,送給500名優秀本科生,符合條件的繼續報名哈!還有《暑期夏令營活動》,雖然沒有遇上夏令營大部隊,但也算是表達了個人心意。

而後是咱們生信技能樹推文裏面提到的各類各樣的數據分析環節都是我很是有經驗的,好比我在lncRNA的一些基礎知識 ,和lncRNA芯片的通常分析流程 介紹過的那些圖表,以及下面的目錄的分析內容 對我來講是舉手之勞,但願能夠幫助到你!

仍是老規矩,發送數據分析要求,以及簡短的項目描述到個人郵箱 jmzeng1314@163.com 目前只接受郵件這個交流形式,謝謝合做,麻煩用心一點寫!

郵件正文最好是加上你是啥時候認識生信技能樹的哦,或者其它一些寒暄的話,自我介紹也行。主要是考慮到可能想免費分析數據的朋友不少,因此會根據你的來信,我主觀斷定一個優先級哦。目前我有20多個願意長期在個人指導下進行數據探索的學徒,等個人團隊擴大到200人,咱們應該是能夠作到數據分析所有免費,敬請期待哈!

本文分享自微信公衆號 - 生信技能樹(biotrainee)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索