記事一覧

微生物分析系列報導:樣本分組比較分析(Beta Diversity)

     原創文章     引用請註明出處

今天小編來分享一下微生物分析中常用的Beta Diversity,其中有幾款視覺化樣本分組比較分析最為常見,我們就來一一介紹吧!

PCA分析

主成分分析(PCA, Principal Component Analysis),是一種應用方差分解,對多維數據進行降維,同時保持數據集中雙方差貢獻最大的特徵,從而有效地找出資料中最主要的元素和結構的方法。應用PCA分析,能找出可最大程度反映樣品間差異的座標軸,從而將多維資料的差異以線性組合的方式反應在二維座標上,藉此觀察個體或群體間的差異。如果樣品的群落組成越相似,則PCA圖中的距離則越接近。

PCA_Gcolor_elli.png

圖 1. PCA分析圖

說明:橫座標表第一主成分,縱座標表第二主成分,百分比表主成分對樣品差異的貢獻率; 每個分組的樣本平均值以常態信心橢圓的中心標示,並以虛線連接每個樣本; 圖中每個點表一個樣品,同一個分組樣品使用同種顏色表示。


PCoA分析

主座標分析(PCoA, Principal Co-ordinates Analysis),與PCA類似皆是經由一系列的特徵值和特徵向量排序從多維資料中找出最主要的元素和結構。PCoA分析基於Weighted Unifrac距離和Unweighted Unifrac距離來進行,並選取貢獻率最大的主座標進行作圖。如果樣品距離越接近,表示物種組成結構越相似,因此群落結構相似度高的樣品會聚集在一起,反之則分開。下圖為Weighted Unifrac PCoA圖。

PCoA_W_Gcolor_seg_elli.png
圖 2. Weighted UniFrac距離PCoA分析圖

說明:橫座標表第一主成分,縱座標表第二主成分,百分比表主成分對樣品差異的貢獻率; 每個分組的樣本平均值以常態信心橢圓的中心標示,並以虛線連接每個樣本; 圖中每個點表一個樣品,同一個分組樣品使用同種顏色表示 。


NMDS分析

非度量多維度分析(NMDS, Non-metric Multidimensional Scaling)統計是一種適用於生態學研究的排序方法。NMDS設計目的是為了克服線性模型(PCA、PCoA)的缺點,基於NMDS是非線性模型,可充分反映生態學資料的非線性結構。根據樣品中包含的物種資訊,以點的形式反映在多維空間上,其差異程度則以點與點間的距離反映樣品的組間和組內差異。

NMDS.png
圖 3. NMDS分析圖

說明:圖中每個點表示一個樣品,點與點間的距離表示差異程度。Stress小於0.2時表示NMDS可準確反映樣品間的差異。


PLS-DA分析

PLS-DA(Partial Least Squares Discriminant Analysis) ,即偏最小平方判別分析,採用了經典的偏最小平方回歸模型,是多變量資料分析技術中的判別分析法,經常用來處理分類和判別問題。透過對主成分適當的旋轉,PLS-DA 可以有效的對組間觀察值進行區分,並且能夠找到導致組間區別的影響變量。
PLS-DA 是一種監督式(supervised classification)的判別分析方法。因非監督式的分析方法(PCA)對所有樣本不加以區分,即每個樣本對模型有同樣的貢獻,因此,當樣本的組間差異較大,而組內差異較小時,非監督式分析方法可以明顯區分組間差異;而當樣本的組間差異不明晰,而組內差異較大時,非監督式分析方法難以區分組間差異。另外,若組間的差異較小,組與組的樣本數量相差較大時,樣本數大的組別將會主導模型。監督式分析(PLS-DA)能解決非監督式分析時遇到的這些問題。

plsda_Gcolor_elli.png
圖 4. PLS-DA分析圖

說明:百分比表PLS主成分對樣品差異的貢獻率; 每個分組的樣本平均值以常態信心橢圓的中心標示; 圖中每個點表一個樣品,同一個分組樣品使用同種顏色表示。


UPGMA聚類樹

為了研究不同樣品間的相似性,還可透過對樣品進行聚類分析建構聚類樹。在環境生物學中,UPGMA(Unweighted Paired-Group Method Using Arithmetic Means)是一種較為常用的聚類分析方法。UPGMA作法首先將距離最小的兩個樣品聚在一起,並形成一個新的節點(新的樣品),其分支點位於兩個樣品間距離的1/2處,然後計算『新的樣品』與其他樣品間的平均距離,在找出其中的最小兩個樣品進行聚類,反覆進行直到所有樣品都聚在一起得到一個完整的聚類樹。以Weighted Unifrac距離矩陣和Unweighted Unifrac距離矩陣做UPGMA聚類分析如下。
 
UPGMAtree.png
圖 5. 基於Weighted Unifrac距離的UPGMA聚類樹 

說明:樹狀圖表示各物種的演化距離。不同分組的樣本以不同顏色標示。

圖爾思生物科技 / NGS事業部
郭育倫 文案

© BIOTOOLS. All Rights Reserved

留言

PCoA圖解說

小編您好
想請問一下,PCoA圖中若是樣品落在四個象限中分別是甚麼意思?文中說到"樣品距離越接近,表示物種組成結構越相似"所謂物種組成結構相似是指菌的種類嗎?還是菌量?
那所謂的貢獻率解釋有沒有比較白話的解釋呢?
謝謝

Re: PCoA圖解說


> 想請問一下,PCoA圖中若是樣品落在四個象限中分別是甚麼意思?文中說到"樣品距離越接近,表示物種組成結構越相似"所謂物種組成結構相似是指菌的種類嗎?還是菌量?

若以PCoA來說就要看是以什麼樣的方法算距離(矩陣),例如若以weighted uniFrac 計算距離,則代表將整體物種的親緣進化關係&細菌豐度(abundance)都考慮進去

> 那所謂的貢獻率解釋有沒有比較白話的解釋呢?

由於這是一種線性組合的降維分析方法,因此貢獻率百分比可想成該主成份可說明多少百分比的原始資料總變異。

發表留言

秘密留言