記事一覧

DADA2

     原創文章     引用請註明出處





DADA ( Divisive Amplicon Denoising Algorithm) 是一種校正擴增子序列錯誤的演算模型,分析不採用聚類方法建構 OTUs [1]。雖然過往研究通常採用 97% 或 99% 序列相似程度進行 OTU clustering 並以代表序列做後續分析,但也知道 OTU 並不能完全代表一個物種,因而限制了微生物物種分析的準確性。近年來,許多研究者相繼呼籲應捨棄 OTU 這種不精確的分類方式,轉而採用去噪(Denoising) 的方法獲得解析度更高 ASV (Amplicon Sequence Variants, ASV)[2]。




DADA2 的算法是基於 Illumina 擴增子序列的錯誤模型,藉由去噪得到不含PCR放大過程錯誤、定序錯誤與嵌合體的擴增子序列[3]。DADA2 去噪分析運用序列的豐度、品質分數、序列之間的關係等資訊,更正定序錯誤的鹼基,推測真實的序列。

DADA2 核心算法
首先,將序列相同的擴增子 Reads 合併成一條具有品質分數與豐度的序列,也就是deduplication(重複序列資料刪除),接著將得到的所有序列(duplicated reads)視為單一劃分單元(partition),而豐度最高的序列視為這單元的中心。其餘所有序列將與這中心序列進行比較,將計算豐度的 p-value 與 error rate。當所有序列比對中最小的 p-value 小於設定值(OMEGA_A , default : 1e-40)時,將帶有最小 p-value 的序列將劃分出去成為一個新的單元的中心序列。所有的序列將會與新的單元中心再進行比較,不斷重複此步驟直到每條序列被劃分到最有可能的單元之中 。

QIIME2 平台中的 DADA2 分析流程
作者是以 R 套件的形式釋出 DADA2,然而 QIIME2 也將 DADA2 納入平台的常規流程中[4]。q2-dada2 plugin 提供研究者一個較容易執行 DADA2 去噪分析的方式,將多個步驟包裝成單一程式執行。分析時會先執行序列的過濾,設定每條序列裁剪到指定長度且設定 MaxEE 參數為容許序列最大預期錯誤鹼基個數。接著執行 DADA2 核心演算法去噪。在雙端序列各自完成去噪後才進行序列拼接。最後,藉由對比樣本中豐度較高的序列將拼接後的序列進行嵌合體去除(如果一條序列,本身豐度小,還和多條序列相似,就可以判定是嵌合體並移除序列)。去噪分析完成後得到 ASVs(Amplicon Sequence Variants)並儲存為 FeatureTable[Frequency] (特徵表) 與 FeatureData[Sequence] (代表序列)。

DADA2 產出 ASVs 的優點除了相較於 OTUs 有更高的解析度與準確性之外,也能讓不同批次分析結果可以直接將 FeatureTable 與 FeatureData 合併分析。這也利於研究者與先前研究數據進行比較,無須將所有數據重頭分析過一遍。

對 DADA2 有初步了解後,不妨再看看 DADA2 官方 logo 設計。是不是很有巧思呢!


參考文獻
[1] Rosen M.J., Callahan B.J., Fisher D.S., Holmes S.P. 2012. Denoising PCR-amplified metagenome data. BMC Bioinf. 13:283.
[2] Knight R, Vrbanac A, Taylor BC, Aksenov A, Callewaert C, Debelius J, et al. Best practices for analysing microbiomes. Nat Rev Microbiol. 2018;1 Nature Publishing Group
[3] Callahan BJ, McMurdie PJ, Rosen MJ, Han AW, Johnson AJ, Holmes SP . (2016a). DADA2: high-resolution sample inference from Illumina amplicon data. Nat Methods 13: 581–583.
[4] Bolyen E, Rideout JR, Dillon MR, Bokulich NA, Abnet CC, Al-Ghalith GA, Alexander H, Alm EJ, Arumugam M, Asnicar F, Bai Y, Bisanz JE, Bittinger K, Brejnrod A, Brislawn CJ, Brown CT, Callahan BJ, Caraballo-Rodríguez AM, Chase J, Cope EK, Da Silva R, Diener C, Dorrestein PC, Douglas GM, Durall DM, Duvallet C, Edwardson CF, Ernst M, Estaki M, Fouquier J, Gauglitz JM, Gibbons SM, Gibson DL, Gonzalez A, Gorlick K, Guo J, Hillmann B, Holmes S, Holste H, Huttenhower C, Huttley GA, Janssen S, Jarmusch AK, Jiang L, Kaehler BD, Kang KB, Keefe CR, Keim P, Kelley ST, Knights D, Koester I, Kosciolek T, Kreps J, Langille MGI, Lee J, Ley R, Liu YX, Loftfield E, Lozupone C, Maher M, Marotz C, Martin BD, McDonald D, McIver LJ, Melnik AV, Metcalf JL, Morgan SC, Morton JT, Naimey AT, Navas-Molina JA, Nothias LF, Orchanian SB, Pearson T, Peoples SL, Petras D, Preuss ML, Pruesse E, Rasmussen LB, Rivers A, Robeson MS, Rosenthal P, Segata N, Shaffer M, Shiffer A, Sinha R, Song SJ, Spear JR, Swafford AD, Thompson LR, Torres PJ, Trinh P, Tripathi A, Turnbaugh PJ, Ul-Hasan S, van der Hooft JJJ, Vargas F, Vázquez-Baeza Y, Vogtmann E, von Hippel M, Walters W, Wan Y, Wang M, Warren J, Weber KC, Williamson CHD, Willis AD, Xu ZZ, Zaneveld JR, Zhang Y, Zhu Q, Knight R, and Caporaso JG. 2019. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology 37: 852–857. https://doi.org/10.1038/s41587-019-0209-9



圖爾思生物科技 / 微生物體研究中心
張美虹 文案

© BIOTOOLS. All Rights Reserved

留言

發表留言

秘密留言