基因功能不确定?做一下单基因GSEA怎么样?
生物信息學習的正確姿勢
NGS系列文章包括NGS基礎、在線繪圖、轉錄組分析?(Nature重磅綜述|關于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細胞測序分析?(重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程)、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step))、批次效應處理等內容。
今天在討論群看到有群友提問 單基因GSEA怎么做?。之前也看到過這個概念,但一直不清楚這個單是什么含義,一直以為是用單個基因做GSEA。如果之前看過生信寶典的一文掌握GSEA,超詳細教程,一定會特別熟悉GSEA的原理和操作流程。當然越是理解,越是想不明白單個基因怎么做GSEA。當然如果您不熟悉GSEA,建議先看上一篇文章。
后來群友點撥理解了,不是對單個基因做GSEA,是拿單個基因 (一般是感興趣的基因)作為分組方式,探索與給定的單個基因相關的 (可以是表達相關,也可以是其它相關)基因富集在哪些調控通路和分子功能。
分組方法有兩種,一種是定性分組,一種是定量相關。
定性分組
根據感興趣的單個基因的度量值如表達值進行分組,比如按照該基因表達中位數分組,該基因表達值高于中位數的樣品為一組,低于中位數的樣品為一組,構建一個cls文件。如下,假如有8個樣品,其中4個樣品中該基因表達高 (samp1, samp3, samp7, samp8),4個樣品中該基因表達低(samp 2 4 5 6),則cls文件如下 (一定注意樣本順序要一致):
8 2 1 #gene_high gene_low gene_high gene_high gene_high gene_high gene_low gene_low gene_low gene_low調整后的表達矩陣格式如下 (注意列的對應,high對高的樣品。)
Gene samp1 samp3 samp7 samp8 samp2 samp4 samp5 samp6 A 4 4 4 4 1 1 1 1 B . . . . . . . . C . . . . . . . .后續的操作就不說了,還是看生信寶典的一文掌握GSEA,超詳細教程,看完就都會了。
注:也可以按照該基因表達的第一和三四分位數分組,小于第一四分位數的為一組,大于第三四分位數的為另一組。
相關性排序
與前面把樣本分組不同,這里樣本不進行分組了,而是把感興趣基因的表達做為樣本的一個屬性。在做GSEA分析時,其它基因按照與感興趣基因的表達相關性排序進行后續分析。
這時應該怎么準備cls文件呢?
咱們先以一個時間序列樣本的cls文件為例:
#numeric為固定寫法,第一行,不需要修改
#Time名字隨便取,這里是時間序列,取名Time。#是必須的。
第3行是每個樣品的處理時間,0為0小時,1為1小時;每個時間3個重復,所以寫了3遍;總共5個時間點,15個樣品。
回到我們這個例子,還是8個樣品,分別為samp 1 2 3 4 5 6 7 8,假如感興趣基因是A,表達矩陣如下:
Gene samp1 samp2 samp3 samp4 samp5 samp6 samp7 samp8 A 9 8 7 6 3 4 1 2 B . . . . . . . . C . . . . . . . .這時對應的cls文件這么寫(注意一一對應關系)。Aexpr隨便起的一個名字,代表A基因的表達。
#numeric #Aexpr 9 8 7 6 3 4 1 2然后導入GSEA就可以分析了。需要注意的是選擇合適的Ranking metric,如pearson相關性、Cosine、Manhattan 或Euclidean。
基于相關性的GSEA操作展示
直接看動畫,數據格式也有展示,GMT文件是自己整理的。這是1我們單細胞和群體轉錄組課程的一個小環節 (回頭把這部分視頻拆出來放到騰訊課堂供訪問)。
公眾號看不了動畫,截圖兩張,點擊閱讀原文去查看吧。
討論學習是個很好的方式,歡迎大家有問題發到train@ehbio.com,信息全的,問題可重現的,或有意思的開放問題我們都會給予解決,寫個推文發出,既方便自己,又方便他人。
當然如果類似轉錄組怎么分析, 宏基因組怎么分析,這樣大的問題還是參加我們的線下培訓班或購買網課吧,都在www.ehbio.com/Training。
這個只需一步就可做富集分析的網站還未發表就被CNS等引用超過350次
什么,你算出的P-value看上去像齊天大圣變的廟?
DESeq2差異基因分析和批次效應移除
GO、GSEA富集分析一網打進
GSEA富集分析 - 界面操作
無需寫代碼的高顏值富集分析神器
去東方,最好用的在線GO富集分析工具
沒錢買KEGG怎么辦?REACTOME開源通路更強大
超簡便的國產lncRNA預測工具LGC
一文掌握GSEA,超詳細教程
UCSC XENA - 集大成者(TCGA, ICGC)
ICGC數據庫使用
TCGA數據庫在線使用
BROAD開發的TCGA分析平臺,強大的下載功能
cBioPortal功能強大的TCGA再分析平臺
這是數據更新最實時的TCGA網站,功能強大
不懂R,如何進行GEO數據庫表達譜的差異分析、富集分析、蛋白互作、可視化?
典型醫學設計實驗GEO數據分析 (step-by-step) - Limma差異分析、火山圖、功能富集
典型醫學設計實驗GEO數據分析 (step-by-step) - 數據獲取到標準化
為什么GEO2R/GEOquery的結果可能是錯的?
WGCNA分析,簡單全面的最新教程
psych +igraph:共表達網絡構建
一文學會網絡分析——Co-occurrence網絡圖在R中的實現
一文看懂PCA主成分分析
往期精品(點擊圖片直達文字對應教程)
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的基因功能不确定?做一下单基因GSEA怎么样?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PCA主成分分析实战和可视化 | 附R代
- 下一篇: 你的数据也可以-三篇NAR的数据库