記事一覧

單細胞定序分析介紹 (二): Seurat

     原創文章     引用請註明出處 

seurat0.jpg

隨著
定序技術以及微流體技術的發展,單細胞定序的技術也越來越純熟。實驗技術方面全力衝刺,當然在後端資料分析研究也不能落人後!今天小編要來跟大家介紹一個強大的單細胞分析R套件 – Seurat [1][2]。它有多厲害呢?嘿嘿,就讓我們繼續看下去。我們這次介紹的是它的基本功能(Guided tutorial Vignettes [3])

 


Quality Control 過濾低品質細胞

每一顆微滴 (GEMGel Bead in Emulsion) 理論上要包裹一顆細胞跟一顆凝珠膠體 (下圖左邊 eppendorf 內,每顆有顏色的分子),然而在過程中,有些微滴可能沒有包到細胞 (下圖黃色/淺綠色分子)、又或者同時包到兩顆細胞。前者如果又剛好包到破碎細胞的游離 RNA 分子,其表現量資料就只會含有少量的基因數目;反之,後者則會有異常高的基因數目。

 seurat01.png


此外,有些微滴雖然正確地包到一顆細胞,但是這顆細胞可能正在進行細胞凋亡(瀕死細胞),所以會有高比例的粒線體基因。下圖中每個點代表每一顆細胞的資訊,這張圖能協助辨別上述狀況,並進一步將這些異常的細胞移除,以免影響後續資料分析。


(1) nFeature_RNA
:每顆細胞的基因數目,大部分的細胞基因數為 800-1000 左右。


(2) nCount_RNA
:每顆細胞的總 UMI count (Unique Molecular Identifier,一個RNA分子的標記;可以把它想成基因表現的量化標記),大部分細胞為 2500 左右。


(3) percent.mt
:粒線體基因占比 (粒線體基因總 UMI count ÷ 細胞的總 UMI count),有幾顆細胞很離群,明顯高於其他細胞的粒線體基因數。


最後,
Seurat範例是挑選基因數目(nFeature_RNA)介於 200-2500 之間、粒線體基因占比(percent.mt)小於 5% 的細胞做後續分析。


seurat2.png


像這種 violin plot 若使用其他 畫圖套件(例如ggplot2)也可以畫,但是必須先算出 total UMI countgene numbers。而使用 Seurat 的好處是,當我們將單細胞資料匯入 Seurat 變成 Seurat Object時,它會自動幫我們計算每顆細胞對應的total UMI countgene numbers, 從 SeuratObject@meta.data 可以看到像這樣的資訊,省去很多繁瑣的步驟。


seurat3.png 


Normalization 標準化

過濾低品質細胞後,Seurat 接著會對每一顆細胞個別標準化(預設方法為log-normalize),主要目的是調整細胞內基因 UMI count 的分布,但是細胞內每個基因 UMI count 相對比例不變。同時,假設我們的資料是來自兩個樣本庫(library),因為除以細胞的 total UMI count,也會把定序深度的影響降低。


公式如下:

formula001.png


Scaling 特徵縮放

這個步驟是針對每一個基因的 UMI count 分布做校正,使得基因在所有細胞的UMI count平均為0,標準差為1 (哇哈哈,沒錯,就是 Z score轉換)

公式如下:

formula002.png 

下面這張圖可以很明顯地看到 UMI count 經過這兩個步驟的分布變化,由左至右分別為:原始 UMI count、標準化 UMI count、縮放後 UMI count(註:此圖使用之資料與 Seurat 示範一樣是 2700 single cells, sequenced on the Illumina NextSeq 500,但 Seurat 官網沒有提供這張圖)


seurat4.png


Feature Selection 特徵選取

Seurat 當中,這個步驟是想要挑選細胞當中高變異的基因(HVGshighly variable genes),目的是移除沒有資訊的基因、辨別比較相關的基因,以減少維度提高計算效率[4][5]。不過,這個步驟是否需要、使用 HVG 的限制[6]、該選用多少 HVGs (Seurat 目前預設2000)、或選用其他特徵挑選方法(例如 highly expressed genes, deviance, dropout distribution…)做後續分析[7],見仁見智,目前還沒有明確定論。



seurat5.png


Dimensional Reduction 特徵選取

關於線性降維方法,小編猜想大家耳熟能詳的應該就是 PCA (Principle Component Analysis)吧!Seurat 只需簡單一個步驟就能將細胞分群的 PCA 結果完成,有沒有很厲害!另外,可能有人想進一步了解 PCA 主成分,這邊 Seurat 提供 ElbowPlot 及 JackStraw Plot 讓大家看主成分的 p-value 及解釋的變異度。不過值得注意的是,有時候單細胞表現量資料太過於複雜(不是線性關係的時候)PCA 可能就無法完美地將細胞群分開,所以才有了 tSNEUMAP 方法,而這些 Seurat 都能做到。(來來來~掌聲加尖叫)

seurat6.png seurat6-2.png seurat6-1.png 


Cluster Biomarkers 細胞群落標記

重頭戲來啦!當我們經過上述的分析流程後,這邊舉例兩種探討方向:

(1) 對某一群細胞特別感興趣,想找 DE genes (differentially expressed genes)Seurat 可以列表將這些 DE genes 找出來。

seurat7.png

(2) 對特定基因感興趣,想看在不同細胞群中的表現情況,呈現如下圖。

seurat8.png


後記

Seurat 是一個非常強大的R分析套件(可謂包山包海),不過在使用套件之前還是建議大家先了解計算原理、背景、參數設定,才不會繞了很大一圈做白工,得到錯誤的結論。當然,Seurat 不只有這些功能,比方說他們還有一個新的 normalization 方法[8],就等大家慢慢探索囉!



參考文獻

[1] Butler, A., Hoffman, P., Smibert, P., Papalexi, E., & Satija, R. (2018). Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nature Biotechnology, 36(5), 411–420.

[2] Stuart, T., Butler, A., Hoffman, P., Hafemeister, C., Papalexi, E., Mauck, W. M., III, et al. (2019). Comprehensive Integration of Single-Cell Data. Cell, 1–37.

[3] https://satijalab.org/seurat/v3.1/pbmc3k_tutorial.html

[4] Brennecke, P., Anders, S., Kim, J. K., Kołodziejczyk, A. A., Zhang, X., Proserpio, V., et al. (2013). Accounting for technical noise in single-cell RNA-seq experiments. Nature Methods, 10(11), 1093–1095.

[5] Luecken, M. D., & Theis, F. J. (2019). Current best practices in single‐cell RNA‐seq analysis: a tutorial. Molecular Systems Biology, 15(6), e8746–23.

[6] Yip, S. H., Sham, P. C., & Wang, J. (2018). Evaluation of tools for highly variable gene discovery from single-cell RNA-seq data. Briefings in Bioinformatics, 21(7), 1160–7.

[7] Townes, F. W., Hicks, S. C., Aryee, M. J., & Irizarry, R. A. (2019). Feature Selection and Dimension Reduction for Single Cell RNA-Seq based on a Multinomial Model, 17(1), 64–31. (Preprint)

[8] Hafemeister, C., & Satija, R. (2019). Normalization and variance stabilization of single-cell RNA-seq data using regularized negative binomial regression, 3(29), 861–17. (Preprint)




圖爾思生物科技 / 微生物體研究中心
謝馥媺 文案

留言

發表留言

秘密留言