記事一覧

單細胞定序分析介紹 (三): Batch Effect

     原創文章     引用請註明出處 

00_MNNscheme.png 
Schematics of batch-effect correction by MNN [1]


繼前兩篇的
單細胞分析介紹(一)單細胞分析介紹(二)之後,相信大家對單細胞分析有一定的認識,聽到單細胞眼睛都亮起來了對吧?那麼我們今天要更進一步介紹的是批次效應 (batch effect) ,這個問題在其他類型的資料已被廣泛討論,目前在單細胞分析領域來說也是很夯的議題。
所以...什麼是批次效應呢?批次效應來源是什麼?為什麼要校正批次效應?單細胞定序分析有什麼校正批次效應的方法呢?小編聽到大家的疑惑了,我就在這裡逐步幫大家解惑吧!



批次效應 (Batch Effect)來源

批次效應是源自許多不同的技術上 (technical) 因素,而造成樣本群上的不同,例如:非同時處理的樣本、不同實驗人員的操作...等。而這些資料如果沒有處理就直接分析,會導致我們錯誤解讀樣本;也就是說,明明是技術上造成的差異,卻讓我們以為不同處理的樣本間具有生物意義上的差異。

下圖為一篇 Review Paper 展示的批次效應在校正前後的細胞分群資料 [2] ,這些細胞來自六個樣本,兩隻老鼠的三個組織:十二指腸 (duodenum)、空腸 (jejunum)、迴腸 (ileum) 
[3]。所以這六筆資料的 batch effect 可能來自:老鼠的差異 (m1, m2)、組織來源不同 (duodenum, jejunum, 
ileum)。校正前(左圖)會看到細胞分群受到樣本來源影響:不同來源的樣本即使聚類在同一群,卻還是會因為樣本來源不同而有層次性的區分。而經過 ComBat [4] 校正後(右圖)就沒有那麼明顯的界線劃分。

01_BA_batch.png


批次效應 (Batch Effect)校正方法

目前有很多方法可以校正單細胞資料的批次效應,小編要介紹給大家的方法有:ComBat [4]、Mutual Nearest Neighbor (MNN) [1] 、 Seurat CCA Alignment [5] 以及 Seurat Integration [6]。小編在這裡就先簡單介紹每個方法的概念,有興趣推薦大家可以翻翻原文囉~


(1) ComBat 

這是一篇 2006 年發表的 Paper,當時針對 microarray 研究而設計的方法,應用於 small batch size 的樣本時較穩定。Combat 使用的方法是 Empirical Bayes (EB) method,主要是透過估計參數的先驗分布,計算每個基因在每個批次的平均值跟變異數後,再依據這些值做調整(見下圖公式)。單細胞批次效應校正方法提出之前,有不少人使用這個方法。

combat_form3.png 


(2) Mutual Nearest Neighbor (MNN) 

本篇文章的封面圖片就是 MNN 方法的示意圖。這個方法有三種假設:(1) 至少有一個細胞群體在不同 batches 都存在 (2) batch effect 向量跟不同的 biological subspace 呈現正交關係(見封面照片圖(a)) (3) batch effect 造成的 variation 遠比 biological-effect 小。基於這些假設,接著就是去找細胞在每個 batch 內最近的鄰居,如果彼此都是最近的鄰居,他們就叫做 mutual nearest partner  (見封面照片圖(b)灰色box)。



(3) Seurat Alignment

Seurat 一開始提出的方式是利用 Canonical Correlation Analysis (CCA),目的是要找出不同樣本間相似的基因-基因關係結構(Canonical Vector, CC),進而對這些向量進行 alignment。這些向量可暫時視為 "Metagene",在 alignment 過程中,會用到「動態時間扭曲」(dynamic time warping),縮放向量以校正 metagene 向量在群裡中變化的密集程度,找到mapping pair。
02_CCA.png


(4) Seurat Integration 

今年(2019)六月的時候,Seurat 團隊發表在 Cell 期刊發表的方法主要是想解決「樣本整合 (integrate information across different modalities)、資料轉移 (label transfer)」的問題。透過尋找"Anchor",在 shared space 當中將訊息轉移,使用的演算法除了原有 CCA 外還加入 MNN 的概念。(阿~太文謅謅了,我來給點活生生的例子吧!)

03_CCA_MNN.png


好的!比方說在 Seurat 的官網上的例子 [7] 意圖將四個跨平台的單細胞資料整合成一個參考資料集,並把其中三個整合 (CelSeq + CelSeq2 + SMART-Seq2) 投射到剩下一筆資
料 (Fluidigm C1) 當中,而因為範例的資料已知 Cell type,所以才能看 Transfer 後細胞有無正確標記:總共 638 顆細胞,被正確transfer的 cell type 為620顆 (正確率超過97%)。


04_seuratexp.png


後記

隨著單細胞定序技術的迅速發展,也湧現許多資料分析方法,看得小編頭昏眼花但也好興奮阿 
~本次討論的批次效應不管應用在哪一種資料都相當被重視,當然除了方法很多可以使用之外,也有文章討論處理批次效應的陷阱,像是樣本大小、成分不均 ,在設計實驗的時候都得避免 [8]。另外值得注意的是,如果細分校正的演算法,小編在前面提到的Review [2] 則是將 ComBat 和其他方法分開討論,因為 ComBat 是基於 linear method,而 MNN 和 Seurat 的方法則是 non-linear approach。這兩種在假設上能處理的雜訊比較不同。好了今天就介紹到這了,未來單細胞分析有發表更新更好的工具小編再來跟大家分享~ 


參考文獻

[1] Haghverdi, L., Lun, A. T. L., Morgan, M. D., & Marioni, J. C. (2017). Correcting batch effects in single-cell RNA sequencing data by matching mutual nearest neighbours. doi: 10.1101/165118
[2] Luecken, M. D., & Theis, F. J. (2019). Current best practices in single‐cell RNA‐seq analysis: a tutorial. Molecular Systems Biology, 15(6). doi: 10.15252/msb.20188746
[3] Haber, A. L., Biton, M., Rogel, N., Herbst, R. H., Shekhar, K., Smillie, C., … Regev, A. (2017). A single-cell survey of the small intestinal epithelium. Nature, 551(7680), 333–339. doi: 10.1038/nature24489
[4] Johnson, W. E., Li, C., & Rabinovic, A. (2006). Adjusting batch effects in microarray expression data using empirical Bayes methods. Biostatistics, 8(1), 118–127. doi: 10.1093/biostatistics/kxj037
[5] Butler, A., Hoffman, P., Smibert, P., Papalexi, E., & Satija, R. (2018). Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nature Biotechnology, 36(5), 411–420. doi: 10.1038/nbt.4096
[6] Stuart, T., Butler, A., Hoffman, P., Hafemeister, C., Papalexi, E., Mauck, W. M., … Satija, R. (2019). Comprehensive Integration of Single-Cell Data. Cell, 177(7). doi: 10.1016/j.cell.2019.05.031
[7] 
https://satijalab.org/seurat/v3.0/integration.html
[8] Nygaard, V., Rødland, E. A., & Hovig, E. (2015). Methods that remove batch effects while retaining group differences may lead to exaggerated confidence in downstream analyses. Biostatistics, 17(1), 29–39. doi: 10.1093/biostatistics/kxv027




圖爾思生物科技 / 微生物體研究中心
謝馥媺 文案




留言

發表留言

秘密留言