這是一個新系列code
差很少是一年之前,我定導後沒多久,接手了讀研後的第一個課題。合做方是醫院,和我對接的是一名博一的醫學生,最開始兩邊的老師很排斥常規的單細胞文章思路,即各大類細胞分羣、註釋、描述,因此起初的幾個月都在摸索一條主線,再後來有主線了,要加實驗驗證,週期有點長。我這邊的分析基本作完。讀研生活還在繼續,我也不能太在乎這一個課題,儘管有些時候我也很着急,儘管我在這個課題上花了不少時間。整理分析流程是個好習慣,最大的受益者仍是本身,因此接下來我打算把我在處理單細胞轉錄組過程當中,學到的用到的全部技能以這樣的形式寫出來,估計有二三十篇吧~orm
我想先從Cell Hashing這樣一種改良的單細胞測序技術開始blog
事實上Cell Hashing是在CITE-seq的基礎上改進的,CITE-seq全稱cellular indexing of transcriptomes and epitopes by sequencing,是一種同時對細胞內RNA和細胞表面蛋白進行測序的技術。ip
測序原理如上圖,將特定的抗體連上一段序列,序列上包含與抗體信息對應的antibody barcode,像右上方表格同樣,還包含一段ploy-A。該抗體複合物和細胞共培養後,細胞表面就會連上一些抗體,某種蛋白分子越多,連上的抗體就會越多。過流式以後,裂解細胞,斷開二硫鍵,此時細胞內的RNA和抗體複合物來源的序列都會連到磁珠上,像右下圖那樣,這兩種類型的序列長度不一樣,能夠分開建庫,調整核酸濃度,以確保二者都有合適的測序深度。ci
因此這樣一種技術,除了提供轉錄組的信息,還提供了部分蛋白的信息。正如做者所說,多模態數據應用得愈來愈多。
支持cite-seq的R包去年看的時候,我知道有Seurat和CiteFuse,CiteFuse今年發表在Bioinformatics。hash
Cell Hashing和CITE-seq的測序原理基本同樣,只是換了一個應用場景。它解決的問題是:如何將不一樣樣本的細胞混起來測序(便宜),測完了還能區分哪一個細胞來源於哪一個樣本,這樣作也減小了批次效應。it
標題裏面提到了doublet檢測僅針對來源於兩個樣本的doublet,不是指不一樣cell type的doublet。io
背景中提到了另外一種解決這類問題的方案就是提供樣本的遺傳多態性信息(單細胞數據比對後也能獲得部分信息,和已知的樣本信息比較,就能知道細胞來源於哪一個樣本了),固然這個信息不那麼容易獲取。form
如圖,不一樣的樣本有不一樣的antibody barcode。基礎
實驗過程如上圖,在選擇抗體時,儘可能選擇普適的抗體,好比CD45,免疫細胞都表達。是用一種仍是多種無所謂(原文用了4種,CD45, CD98, CD44, and CD11a),只要保證antibody barcode與樣本對應便可。
原文提供了針對cell hashing數據的拆分方法,這是對應的兩個圖。B圖中的一個點和C圖中的一列表示一個液滴(或者理解爲一個cellular barcode)。正常狀況下,一個液滴裏面只有一個細胞,那麼對應的樣本tag (HTO) 只有一個,也就是隻有一個tag有UMI,其餘tag的UMI應該爲0,否則就是doublet或者空的液滴(negative)。
一般咱們在完成測序數據比對後,能獲得一個表達矩陣,行爲gene列爲細胞,而cell hashing的數據,比對後獲得的是行爲gene+tag,列爲細胞。上圖給出的tag x cell的一個例子,咱們利用的是這個矩陣來斷定每一個細胞屬於哪一個樣本。
預告
因水平有限,有錯誤的地方,歡迎批評指正!