ssGSEA基本原理
對于一個基因表達矩陣,ssGSEA首先對樣本的所有基因的表達水平進行排序獲得其在所有基因中的秩次rank。然后對于輸入的基因集,從基因集中尋找表達數(shù)據(jù)里存在的基因并計數(shù),并將這些基因的表達水平求和。接著基于上述求值,計算通路中每個基因的富集分數(shù),并進一步打亂基因順序重新計算富集分數(shù),重復(fù)一千次,***根據(jù)基因富集分數(shù)的分布計算p值整合基因集**終富集分數(shù)。
數(shù)據(jù)要求
1、特定感興趣的基因集(通常為免疫細胞表面marker genes),列出基因集中基因
2、基因表達矩陣,為經(jīng)過log2標(biāo)準(zhǔn)化的芯片數(shù)據(jù)或者RNA-seq count數(shù)數(shù)據(jù)(基因名形式與基因集對應(yīng))
下游分析
免疫細胞浸潤分數(shù)相關(guān)性(corralation)分析 利用甲基化數(shù)據(jù)分析樣本的拷貝數(shù)變異。北京成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)歡迎咨詢
t-SNE(t分布隨機鄰域嵌入)是一種用于探索高維數(shù)據(jù)的非線性降維算法。它將多維數(shù)據(jù)映射到適合于人類觀察的兩個或多個維度。t-SNE非線性降維算法通過基于具有多個特征的數(shù)據(jù)點的相似性識別觀察到的簇來在數(shù)據(jù)中找到模式。另外t-SNE的輸出可以作為其他分類算法的輸入特征。因為t-SNE算法定義了數(shù)據(jù)的局部和全局結(jié)構(gòu)之間的軟邊界。t-SNE幾乎可用于所有高維數(shù)據(jù)集,廣泛應(yīng)用于圖像處理,自然語言處理和語音處理。在生物信息中可廣泛應(yīng)用于基因表達數(shù)據(jù)、基因甲基化數(shù)據(jù)、基因突變數(shù)據(jù)等,能夠直觀地對不同數(shù)據(jù)集進行比較?;驹韽姆椒ㄉ蟻碇v,t-SNE本質(zhì)上是基于流行學(xué)習(xí)(manifoldlearning)的降維算法,不同于傳統(tǒng)的PCA和MMD等方法,t-SNE在高維用normalizedGaussiankernel對數(shù)據(jù)點對進行相似性建模。相應(yīng)的,在低維用t分布對數(shù)據(jù)點對進行相似性(直觀上的距離)建模,然后用KL距離來拉近高維和低維空間中的距離分布。 北京成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)歡迎咨詢調(diào)控區(qū)域ChiP-seq信號分布圖。
GSEA全名為GeneSetEnrichmentAnalysis(基因集富集分析)。用以分析特定基因集(如關(guān)注的GO條目或KEGGPathway)在兩個生物學(xué)狀態(tài)(如**與對照,高齡與低齡)中是否存在差異。能夠研究基因變化的生物學(xué)意義。SubtypeGSEA是在GSEA的基礎(chǔ)上對不同亞型樣本中重要通路的富集情況進行組間比較,能直觀比較不同亞型中相同通路富集情況?;驹鞧SEA主要分為基因集進行排序、計算富集分數(shù)(EnrichmentScore,ES)、估計富集分數(shù)的***性水平并進行多重假設(shè)檢驗三個步驟。**步對輸入的所有基因集L進行排序,通常來說初始輸入的基因數(shù)據(jù)為表達矩陣,排序的過程相當(dāng)于特定兩組中(case-control、upper-lower等等)基因差異表達分析的過程。根據(jù)所有基因在兩組樣本的差異度量不同(共有六種差異度量,默認是signal2noise,GSEA官網(wǎng)有提供公式,也可以選擇較為普遍的foldchange),對基因進行排序,并且Z-score標(biāo)準(zhǔn)化。第二步是GSEA的**步驟,通過分析預(yù)先定義基因集S在**步獲得的基因序列上的分布計算富集指數(shù)EnrichmentScore,并繪制分布趨勢圖Enrichmentplot。每個基因在基因集S的EnrichmentScore取決于這個基因是否屬于基因集S及其差異度量(如foldchange)。
GeneInteraction基因互作:基因相互作用指miRNA、lncRNA、circRNA或其它RNA介導(dǎo)DNA轉(zhuǎn)錄,從而影響mRNA的表達過程。通俗意義上來說,基因互作關(guān)系指基于序列預(yù)測的靶基因?qū)ΑiRNA通過與靶mRNA的結(jié)合,或促使mRNA降解,或阻礙其翻譯,從而***目的基因的表達。競爭性內(nèi)源RNA網(wǎng)絡(luò)是靶基因預(yù)測的研究深入,簡稱ceRNA網(wǎng)絡(luò)。通過進行ceRNA網(wǎng)絡(luò)的分析,我們能從一個更為宏觀的角度來解釋轉(zhuǎn)錄體如何構(gòu)建基因表達調(diào)控網(wǎng)絡(luò),從而進一步挖掘基因在其中的調(diào)控機制。基本原理:miRNA主要通過與靶基因的非翻譯區(qū)(UTR)結(jié)合而發(fā)揮其作用,對miRNA和mRNA、lncRNA、circRNA結(jié)合進行的預(yù)測稱為靶基因預(yù)測。靶基因預(yù)測使用軟件根據(jù)miRNA和靶基因間的結(jié)合的規(guī)律預(yù)測結(jié)合基因?qū)?。在生物體內(nèi),miRNA可以通過與proteincoding特異性結(jié)合,影響相關(guān)基因的表達,從而參與調(diào)控細胞內(nèi)的各項功能。ceRNA具有miRNA結(jié)合位點,能后競爭性地結(jié)合miRNA,***miRNA對靶基因的調(diào)控。例如lncRNA與miRNA競爭性結(jié)合,影響miRNA調(diào)控mRNA的過程,**終導(dǎo)致的mRNA表達失調(diào)。我們使用基于序列預(yù)測的軟件對差異分析得到的miRNA與mRNA,lncRNA,circRNA進行靶點預(yù)測和ceRNA網(wǎng)絡(luò)分析。 云生物立足于上海,提供相關(guān)數(shù)據(jù)科研咨詢與服務(wù)。
RoastROAST是一種差異表達分析方法,有助于提高統(tǒng)計能力、組織和解釋結(jié)果以及在不同實驗中的關(guān)聯(lián)表達模式,一般適用于microarray、RNA-seq的表達矩陣,用limma給全部基因做差異表達分析,不需要篩差異表達基因。基本原理:ROAST是一種假設(shè)驅(qū)動的測試,對結(jié)果基因集做富集分析,富集分析考慮基因集中基因的方向性(上調(diào)或下調(diào))和強度(log2倍變化),判斷上/下調(diào)基因是否***富于集目標(biāo)基因集;ROAST使用rotation,一種MonteCarlotechnology的多元回歸方法,適用于樣本數(shù)量較少的情況;roast檢驗一個geneset,對于復(fù)雜矩陣,使用mroast做multipleroasttests。富集分析結(jié)果用barcodeplot展示,使上/下調(diào)基因在目標(biāo)基因集中的分布可視化。數(shù)據(jù)要求:表達矩陣。 與復(fù)旦大學(xué)問附屬醫(yī)院合作,開發(fā)人血液外泌體中RNA的數(shù)據(jù)庫。北京成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)歡迎咨詢
OmicCircos圖可以對感興趣的多個基因,展示其染色體的位置、拷貝數(shù)變異等多個特征。北京成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)歡迎咨詢
genomeview(基因瀏覽圖):genomeView是對基因組的可視化,可以直觀展示RNA-seq和ChIP-seq的信號,證實轉(zhuǎn)錄因子結(jié)合對基因轉(zhuǎn)錄的影響等等。數(shù)據(jù)要求:RNA-seq和ChIP-seq等數(shù)據(jù)。應(yīng)用示例:文獻1:Genomic landscape and evolution of metastatic chromophobe renal cell carcinoma.(于2017年6月發(fā)表在JCI Insight.,影響因子6.041)。本文對轉(zhuǎn)移性腎嫌色細胞*進行了系統(tǒng)的基因組研究,文中繪制基因流覽圖對整個基因組數(shù)據(jù)進行了可視化。轉(zhuǎn)移性腎嫌色細胞*的基因組景觀和演化。 北京成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)歡迎咨詢