一、文獻
WGCNA(Weighted Gene Co-expression Network Analysis,加權(quán)基因共表達網(wǎng)絡(luò)分析)是一種用于挖掘高維基因表達數(shù)據(jù)的系統(tǒng)生物學(xué)方法。它主要用于構(gòu)建基因共表達網(wǎng)絡(luò),并識別與特定表型或生物學(xué)過程相關(guān)的基因模塊和關(guān)鍵基因(Hub基因),能幫助研究者從全局視角探索基因間的相互作用及其潛在功能。
2008年,Peter Langfelder 和 Steve Horvath 發(fā)布了WGCNA分析的R包(WGCNA)。其成為基因共表達網(wǎng)絡(luò)分析的重要工具。其發(fā)布使生物學(xué)家和計算生物學(xué)家能夠更高效地構(gòu)建和分析基因共表達網(wǎng)絡(luò),進而深入理解基因功能和疾病機制。
二、WGCNA分析步驟
7大步驟
三、WGCNA分析理論(理念和函數(shù))
1、相關(guān)性網(wǎng)絡(luò)
相關(guān)性網(wǎng)絡(luò)是基于定量測量之間的相關(guān)性構(gòu)建的,比如 n 個基因在m個樣本中的表達量矩陣可以通過n × m 矩陣 X 來描述,其中行索引對應(yīng)于基因( i = 1, . . ., n ) 和列索引 ( j= 1, ..., m ) 對應(yīng)于樣本:
實驗樣本常常會有其他的特征,比如一些性狀(株高、千粒重等)或者生長時期和疾病類型等。樣本的某個性狀向量可以用 T 表示
某個基因 i ?與?樣本特征 T 的相關(guān)性可以表示如上所示
相關(guān)性計算需要評估其顯著性 p。GS定義為Gene Significance, 此外基因顯著性測量也可以通過 p 值的負對數(shù)來定義
2、構(gòu)建基因共表達網(wǎng)絡(luò)
基因共表達網(wǎng)絡(luò)中節(jié)點為Gene,邊為相關(guān)性。n個基因的相關(guān)性矩陣C(n × n),可以對共表達相似性s ij 進行硬閾值化篩選,其中τ是硬閾值參數(shù)。
如果兩個基因的表達譜之間的絕對相關(guān)性超過(硬)閾值τ,則兩個基因被連接。通過這種方式構(gòu)建的網(wǎng)絡(luò)稱為未加權(quán)網(wǎng)絡(luò)。雖然未加權(quán)網(wǎng)絡(luò)被廣泛使用,但它們不能反映底層共表達信息的連續(xù)性,因此可能導(dǎo)致信息丟失。相反,加權(quán)網(wǎng)絡(luò)允許鄰接取 0 到 1 之間的連續(xù)值
加權(quán)網(wǎng)絡(luò)可以通過將共表達相似度做冪運算來定義
其中β≥ 1。加權(quán)?a?ij?與共表達相似性?s?ij?在對數(shù)尺度上的成正比,log?(?a?ij?) =?β?×?log?(?s?ij)。相關(guān)性矩陣使用閾值將其轉(zhuǎn)換為鄰接矩陣 A = [a?ij?],用于構(gòu)建加權(quán)網(wǎng)絡(luò)。
實驗表明,基因調(diào)控網(wǎng)絡(luò)、生物代謝網(wǎng)絡(luò)等天然生物網(wǎng)絡(luò)常表現(xiàn)出無標度拓撲(Scale-Free Topology)結(jié)構(gòu)。因此,WGCNA構(gòu)建的基因共表達網(wǎng)絡(luò)應(yīng)符合無標度拓撲,以保證結(jié)果的可靠性和解釋性。
4、識別基因模塊
1)、模塊是通過基因表達的相似性和網(wǎng)絡(luò)結(jié)構(gòu)聚類得到的基因子集,表現(xiàn)為共表達模式高度一致的基因簇。識別模塊的步驟包括:
①?計算拓撲重疊矩陣(TOM):通過拓撲重疊度(TOM)量化基因之間的連接強度,反映它們的共表達模式是否相似。
②?層次聚類分析:基于TOM矩陣對基因進行層次聚類,將表達模式相似的基因分為多個簇。
③?動態(tài)剪枝法:通過動態(tài)剪枝算法進一步細化模塊劃分,確保模塊內(nèi)部基因表達更為一致。
2)、模塊中還有一些關(guān)鍵概念:
①?模塊特征基因(Module eigengene, E):模塊的第一主成分,代表模塊中基因的表達模式,類似于PCA中的PC1。
②?樞紐基因(Hub gene):在模塊內(nèi)高度連接并與模塊特征基因相關(guān)的基因。
③?模塊顯著性(Module significance):模塊內(nèi)所有基因的基因顯著性(GS)的平均值。
四、運行代碼(下次說)
生物信息學(xué)領(lǐng)域非常廣泛,難以一次說盡。我們下次繼續(xù)更新,一起深入學(xué)習生物信息學(xué)的內(nèi)容!
喜歡的寶子們點個贊吧~碼字不易,且行且珍惜~