GSEA分析:GSEA全名為GeneSetEnrichmentAnalysis(基因集富集分析)。用以分析特定基因集(如關注的GO條目或KEGGPathway)在兩個生物學狀態(tài)(如**與對照,高齡與低齡)中是否存在差異。能夠研究基因變化的生物學意義。普通GO/KEGG富集的思路是先篩選差異基因,然后確定這些差異基因的GO/KEGG注釋,然后通過超幾何分布計算出哪些通路富集到了,再通過p值或FDR等閾值進行篩選。挑選用于富集的基因有一定的主觀性,沒有關注到的基因的信息會被忽視,所以有一定的局限性。在這種情況下有了GSEA(GeneSetEnrichmentAnalysis),其思路是發(fā)表于2005年的Genesetenrichmentanalysis:aknowledge-basedapproachforinterpretinggenome-wideexpressionprofiles。主要是要有兩個概念:預先定義的基因集S(基于先驗知識的基因注釋信息)和待分析基因集L(一般初始輸入是表達矩陣);然后GSEA目的就是為了判斷S基因集中的基因是隨機分布于L(按差異表達程度對基因進行排序),還是聚集分布在L的頂部或者底部(也就是存在差異性富集)。如果基因集中的基因***富集在L的頂部或者底部,這說明這些基因的表達對定義的分組(預先分組)的差異有***影響(一致性)。在富集分析的理論中。 軟硬件配套,完成數(shù)據(jù)收集、整理、檢索、分析與智能化開發(fā)工作。云南數(shù)據(jù)庫建設數(shù)據(jù)科學共同合作
industryTemplate北京算法還原與開發(fā)數(shù)據(jù)科學共同合作數(shù)據(jù)庫建設、公共數(shù)據(jù)庫挖掘。
mutationEvents**已存在的基因突變會影響其他基因的突變,突變分析時確定這些基因突變潛在的相互作用,能更好地了解健康細胞轉化為*細胞的過程和機制。DISCOVER,一種針對基因突變的統(tǒng)計檢驗工具,幫助尋找***的基因突變間互斥性和共現(xiàn)性。一般可應用的研究場景:探索一組基因是否在**中存在互斥性和共現(xiàn)性;基于基因突變的互斥性和共現(xiàn)性,研究**發(fā)***展的潛在機制?;驹恚篋ISCOVER(DiscreteIndependenceStatisticControllingforObservationswithVaryingEventRates)是一種用于檢測**基因組數(shù)據(jù)的共現(xiàn)性和互斥性的新統(tǒng)計檢驗方法。與Fisher'sexacttest等用于這些任務的傳統(tǒng)方法不同的是,DISCOVER基于一個空模型,該模型考慮了總體**特異性的變化率,從而決定變化率的同時發(fā)生的頻率是否高于或低于預期。該方法避免了共現(xiàn)檢測中的虛假關聯(lián),提高了檢測互斥性的統(tǒng)計能力。DISCOVER的性能與其他幾個已發(fā)布的互斥性測試相比,在整個***性水平范圍內,DISCOVER在控制假陽性率的同時更敏感。
術語解讀:中位數(shù)Q2:二分之一分位數(shù)上四分位數(shù)Q1:序列由小到大排序后第(n+1)/4所在位置的數(shù)值下四分位數(shù)Q3:序列由小到大排序后第3(n+1)/4所在位置的數(shù)值**值:非異常范圍內的**值,四分位距IQR=Q3-Q1,上限=Q3+最小值:非異常范圍內的最小值,下限=數(shù)據(jù)要求:某一基因在各**及對應的正常組織的表達數(shù)據(jù)。應用示例1:(于2014年2月發(fā)表于Nature.,影響因子)文章研究了12種主要**類型的突變景觀和意義,它首先使用小提琴圖展示了12種**的突變頻率分布情況,然后查找確定具有***意義的突變基因。應用示例2:(于2017年1月發(fā)表在NatCommun.,影響因子)文章研究了Pancancer建模預測體細胞突變對轉錄程序背景的特異性影響。研究人員基于開發(fā)的模型預測重要轉錄因子,然后使用預測出的突變轉錄因子的活性情況繪制泛*圖譜。 與復旦大學問附屬醫(yī)院合作,開發(fā)人血液外泌體中RNA的數(shù)據(jù)庫。
CNV(拷貝數(shù)變異分析):CNV(copy-numbervariant)是指拷貝數(shù)目變異,也稱拷貝數(shù)目多態(tài)性(copy-numberpolymorphism,CNP),是一個大小介于1kb至3MB的DN**段的變異,在人類及動植物基因組中***分布,主要表現(xiàn)為亞顯微水平的缺失或重復。CNV是近年來基因組學的研究熱點,是許多人類疾?。ㄈ?*、遺傳性疾病、心血管疾病等)發(fā)***展的重要分子機制之一。CNV的分析多見于易于發(fā)生染色體結構變異的**研究中,也可用于復雜的神經(jīng)精神疾病的病因學研究,如智力障礙、帕金森病和孤獨癥等,也可用于其他疾病的易感性分析,如銀屑病、克羅恩病和一些自身免疫系統(tǒng)疾病。CNV研究既可用于單個的病例分析,找到遺傳高度異質性的個體致病的遺傳學基礎,如智力低下的病因診斷;也可用于大量的病例一對照分析,患病群體的常見CNV變異研究,還可用于**家系的研究,如疾病相關新發(fā)CNV的研究。基本原理目前主流的CNV檢驗方法有RNA-seq和SNPArray,已有研究表明使用轉錄組數(shù)據(jù)分析到的CNV情況和。CNV分析的**步為篩選somaticCNVs。對正常人來說,基因組應該是二倍體的,所以凡是測到非2倍體的地方都是CNV。但是CNV本身就是人群遺傳物質多樣性的體現(xiàn),所以對**樣本來說。 調控區(qū)域ChiP-seq信號分布圖。云南數(shù)據(jù)庫建設數(shù)據(jù)科學共同合作
在基因組上同時展示突變位點和motif,為突變影響轉錄因子結合提供量化和可視化的證據(jù)。云南數(shù)據(jù)庫建設數(shù)據(jù)科學共同合作
**突變頻譜分析(突變模式):目的:輸入突變數(shù)據(jù),用非負矩陣分解方法NMF分析突變特征,描述樣本集的突變模式。什么是突變模式:這也是對TCGA數(shù)據(jù)的深度挖掘,從而提出的一個統(tǒng)計學概念。文章(Signaturesofmutationalprocessesinhumancancer)研究了30種**,發(fā)現(xiàn)21種不同的mutationsignature。如果理解了,就會發(fā)現(xiàn)這個其實蠻簡單的,他們并不重新測序,只是拿已經(jīng)有了的TCGA數(shù)據(jù)進行分析,而且居然是發(fā)表在nature上面!文章研究了4,938,362mutationsfrom7,042cancers樣本,突變頻譜的概念只是針對于somatic的mutation。一般是對**病人的**組織和*旁組織配對測序,過濾得到的somaticmutation,一般一個樣本也就幾百個somatic的mutation。還有其它文章(Mutationalsignatures:thepatternsofsomaticmutationshiddenincancergenomes)也是這樣分析的從2013年提出到現(xiàn)在,已經(jīng)有30種mutationsiganures,在cosmic數(shù)據(jù)庫有詳細記錄,更新見:MutationalSignatures。它的概念就是:根據(jù)突變上下文分成96類,然后每類突變的頻率不一樣畫一個條形圖,可視化展現(xiàn)。應用場景:突變特征定義:體細胞突變是多個突變過程如DNA修復缺陷,暴露于外源或內源誘變劑等綜合結果。 云南數(shù)據(jù)庫建設數(shù)據(jù)科學共同合作