記事一覧

生物學重複與定序深度在RNAseq研究中何者重要?

     原創文章     引用請註明出處

雖然目前定序成本已大幅下滑,但樣本間設置多少重複樣本的問題,仍讓我們面臨超出經費預算的尷尬。那麼在有限的預算下想要盡可能提高手上定序資料的利用價值,我們究竟該選擇定序深度還是樣本數目呢?

小編找了三篇具代表性的高引用文章,來說明雖然定序深度對偵測差異基因很重要,但當滿足一定的定序深度後,其提昇的效果會逐漸不顯著。但若增加生物學重複數目後,對於發現差異基因的敏感度效果會高於定序深度的提升。並且,增加重複數亦可以減少實驗誤差,對提高結果的可靠性

2013Comprehensive RNAseq

a.假陽性率:

提高定序深度或增加重複樣本數均可降低假陽性率。但是,在25%低表現的基因,隨著定序深度和重複樣本數的增加,假陽性率從無到有並逐步遞增;而在75%高表現的基因,假陽性率隨著定序深度和重複樣本數的增加卻呈遞減趨勢。

2013Positive_rate.png

b.敏感率:

在表現量較低的基因中,當抽取5%的reads數和兩個重複樣本時,敏感率不到10%,抽取所有reads和重複樣本時,敏感率達到了100%;而對於表現量較高的基因,提高定序深度和樣本數對敏感率並無顯著影響。總體上,對表現量較高的基因,抽取5%的reads數和兩個生物學重複也能滿足90%的差異基因篩選率。

2013_sensitivity_rate.png


Bioinformatics2014_RNAseq.png
Bioinfo_2014-RNAseq.png

上圖(a)(b)為增加定序深度跟生物學重複比較發現差異基因的能力。當Reads的數目從2.5M增加到10M時,發現差異基因的能力(類似於敏感度)和數目都有顯著的提高,而Reads的數目大於10M時,敏感度就漸漸顯得疲軟。而增加生物學重複,對於發現差異基因的數目及能力則有顯著性的提升。

圖(c) 顯示的是不同Reads數目的ROC曲線,當Reads數目從2.5M增加到10M時,ROC曲線增加的很明顯,Reads數目從10M增加到30M時,ROC則沒有顯著的提高。

圖(d) 的縱軸表示logFoldChange的變異係數( CV ),這個變異係數越小,說明fold change的值在不同重複間的重複性更好。同樣看到Reads數目從2.5M增加到10M時候,變異係數明顯減小,而Reads數目大於10M後,曲線的趨勢趨於平緩。而在相同定序深度時(例如10M reads),增加生物學重複對於變異係數的縮小比定序深度效果大很多。


PlosOne-RNAseq analysis

PlosOne-FPrate.png

上圖分別是以Cuffdiff2、DESeq與edgeR對三組datasets(MAQC / K_N / LCL2)做差異表現分析結果的ROC curve,橫軸表示假陽性率( False positive rate ),縱軸是陽性率( True positive rate ),簡單的說,陽性率越高,假陽性率越低越好。一般用ROC曲線下的面積( Area Under roc Curve,AUC )衡量ROC曲線好壞,AUC值越大,也就是曲線越靠近坐標軸的左上角,這條曲線越佳。

以(H)圖為例,對於只有一個生物學重複(1 rep),當假陽性=0.2時,陽性率≈0.55;對於兩個生物學重複( rep =2 ),同樣假陽性=0.2時,陽性率≈0.75。因此可以發現,在假陽性不變的情況下,當生物學重複越多,陽性率越高。而當生物學重複增加到14時,AUC的增加還是很明顯的。


綜合以上:

(1) 樣本數對差異基因篩選的精確性造成的影響比定序深度更大,無論對於技術性重複還是生物學重複都適用。

(2) 對於低現量的基因,reads數和樣本數的選取對差異基因篩選存在著影響,而對於高表現量的基因,提高定序深度對差異基因的篩選實質幫助較小。

(3) 大於10M的Reads數目對差異表現分析是足夠的(在生物學重複大於等於3的情況下)。

因此,建議若已滿足一定的定序深度後,應優先選擇用多餘的研究經費增加生物學重複,以提升分析的可靠性。 

參考文獻
[1] Rapaport, F., Khanin, R., Liang, Y., Pirun, M., Krek, A., Zumbo, P., et al. (2013). Comprehensive evaluation of differential gene expression analysis methods for RNA-seq data. Genome Biology, 14(9), R95.
[2] Liu, Y., Zhou, J., & White, K. P. (2014). RNA-seq differential expression studies: more sequence or more replication? Bioinformatics, 30(3), 301–304.
[3] Zhang, Z. H., Jhaveri, D. J., Marshall, V. M., Bauer, D. C., Edson, J., Narayanan, R. K., et al. (2014). A Comparative Study of Techniques for Differential Expression Analysis on RNA-Seq Data. PLoS ONE, 9(8), e103207–11.



圖爾思生物科技 / NGS事業部
郭育倫 文案

© BIOTOOLS. All Rights Reserved

留言

發表留言

秘密留言