記事一覧

單細胞定序分析介紹 (一): Cell Ranger


  
   原創文章     引用請註明出處 


單細
胞定序的研究發展至今已經十幾年了。從下面這張圖[1]顯示每年新發表的單細胞定序技術,可偵測到的細胞數目近乎指數成長,每一年與前一年相比都是10倍上升,這也揭示單細胞定序發展的潛力。今天要跟大家介紹一個由 10x Genomics 公司所開發的分析流程化軟體Cell Ranger [2],功能有:比對參考序列 reads (alignment)、feature-barcode 矩陣 (feature-barcode matrices)[註]、聚類分析結果 (clustering analysis)、基因表現量分析 (gene expression analysis),目前最新版本為 Cell Ranger 3.1 (只支援Linux系統)

 [註]:若單純只做單細胞表現量可暫且視為基因-細胞表現量表

cellranger1.png


Cell Ranger 指令介紹:


 - cellranger mkfastq


這個指令主要功能是 demultiplex,將 Illumina 平台定序後的 raw base call (BCL) 轉檔成 FASTQ 檔案。當然,如果你拿到的檔案是 FASTQ 檔,可以跳過這一步。

 

 - cellranger count

這個指令是最核心的步驟!這一步會比對樣本 FASTQ 跟參考序列的位置 (目前官方只提供人或老鼠的參考序列),並決定哪些 barcode 是背景值、哪些 barcode 是 cell-associated [3],產生下游分析的基因表現量表。早期的Cell Ranger 版本 (Cell Ranger v2.x and earlier)是假設 cell-associated barcode 應該會比背景 barcode 具有較多的 transcript counts,所以會設定一個閾值直接區分背景值及真實細胞barcode。而新版的 Cell Ranger (Cell Ranger v3.x) 則會分為兩步驟:

(1) 跟舊版一樣的假設,先找出 high RNA content 的 barcode,這些先被歸類為真實細胞。

(2)
將一群「可能是空的 GEMs (Gel Bead in Emulsions)」挑出來,利用圖靈估計 (Simple Good-Turing smoothing) 對其基因建立一個 background model [4]。第一步剩下的 GEMs 的基因就跟這個 background model 比較,與這個 model 差異較大的就被歸類為真實細胞。而這個做法其實就是要挑出 low RNA content 的細胞。
下圖是 10x 官網提供的比較 [3] (左:Cell Ranger 2.2,右:Cell Ranger 3.0),綠色/藍色代表被判定為真實細胞,灰色代表背景值,樣本是混合 300 high RNA content 293T cells + 2000 low RNA content PBMC cells。圖是排序過的值,可以這樣解讀:有多少個 X() barcode 帶有 Y(UMI count。下圖可以看到,新版的 Cell Ranger 能夠將 low RNA content 細胞也挑出來,所以會比舊版細胞數還要多。


cellranger02.png


 - cellranger aggr

當實驗設計為多樣本或多重複時才會需要這個步驟,必須將每個樣本庫 (library)先個別做完 cellranger count 再整合。這一步值得注意的參數是 “normalize”,預設為 mapped,計算方式是對每一個要合併的樣本取得「每顆細胞平均mapped到多少Transcriptome」,再以最小值當作基準,依比例重新計算每個合併樣本的 UMI count [5]。若下游分析會進行其他 normalize 處理,可以在這一步設置為 none。另外,cellranger aggr 也提供了一個 batch correction 功能,不過要提醒大家的是,這裡官方有特別強調,此功能主要是針對樣本所採用的不同試劑版本做校正,其他我們所認知的,例如重複實驗的校正是不適用的。如果需要其他類型的校正,需要使用第三方套件 [6]

 

 - cellranger reanalyze

最後這個功能比較進階,讓使用者可以彈性的重新計算、改變參數設定,例如有一群特定想看的細胞、想要排除的基因;或是聚類分析的參數,例如設定多少個 PC (principle components)、幾個 k-means clusters…等的。但是這個步驟目前不支援 Feature Barcoding analysis,所以 output 並不會看到一個新的基因表現量表,唯一能夠體現差異的是附帶的可視化 Loupe 檔案,結果可能會跟前面不同





下圖為基本的Cell Ranger單樣本分析流程示意圖


cellranger04.png



後記

今天介紹的這個 Cell Ranger 軟體提供使用者一個自動化的分析流程,能夠產生初步的單細胞分析結果,並且在官網上記錄各種疑難雜症讓使用者搜尋參考。特別是 Alignment 步驟,Cell Ranger 包裹被普遍使用的 STAR aligner,給使用者一個不囉嗦的分析選擇,這對於沒有特別參數設定需求的試用者來說,非常方便。不過也因為這樣簡單方便,其他客製化流程就必須配合別的套件進行分析。對於 Cell Ranger 有興趣的話,不妨前往至 10x 官網參觀看看囉!



參考文獻

[5] https://kb.10xgenomics.com/hc/en-us/articles/115004217543-How-does-cellranger-aggr-normalize-for-sequencing-depth-among-multiple-libraries-
[6] https://kb.10xgenomics.com/hc/en-us/articles/360000559571-How-can-I-remove-batch-effects-among-samples-



圖爾思生物科技 / 微生物體研究中心
謝馥媺 文案


留言

發表留言

秘密留言