国家生物信息中心在核酸研究发表单细胞DNA甲基化数据库—scMethBank
DNA甲基化是表觀遺傳研究的一個重要層面,且與發育、衰老和疾病的發生發展密切相關。為了更好地利用已公開的海量甲基化數據,此前,中國科學院北京基因組研究所國家基因組科學數據中心(以下簡稱基因組數據中心)已經發布了一個DNA甲基化的綜合性數據庫MethBank(https://ngdc.cncb.ac.cn/methbank/),涵蓋了多物種高質量的全基因組單堿基精度甲基化圖譜、健康人參比甲基化組以及人工審編的甲基化分析工具集。這里,我們介紹基因組數據中心最新發布的單細胞甲基化數據庫——scMethbank(https://ngdc.cncb.ac.cn/methbank/scm/)。
該項研究成果以“scMethBank: a database for single-cell whole genome DNA methylation maps”為題于2021年9月在國際學術期刊《核酸研究》(Nucleic Acids Research)在線發表。
scMethBank主頁 scMethBank是第一個致力于單細胞全基因組DNA甲基化數據收集、整合、分析和可視化的綜合性數據庫,當前版本包括來自15個公共單細胞數據集的亞硫酸氫鹽測序數據和人工審編的元數據8328個,涉及兩個物種(人和小鼠),9 種細胞類型和兩種疾病。
數據庫核心功能及操作演示
1. 數據瀏覽與檢索
scMethBank使用標準流程對來自不同數據集的數據進行統一處理后錄入數據庫中,瀏覽模塊提供四個層面的來自人工審編及處理后數據信息。
數據集信息包括文章題目,發表年份,PubMed ID,包含的細胞類型和數目,以及詳細的實驗設計信息和到對應細胞類型的單細胞轉錄組數據的鏈接。用戶可以選擇感興趣的數據集進行進一步的篩選、使用和下載。
以GSE56879為例,在樣本瀏覽界面提供了樣本多種生物條件的高效搜索,包括物種、數據集ID、發育階段、疾病狀態、處理方法、年齡、性別等。用戶可以使用多個條件進行篩選,比如Series指定GSE56879,細胞類型指定為MII oocyte,在篩選結果頁面可以點擊列表More Details列的+顯示數據處理的詳情信息,并通過左上方按鈕進行批量下載。
如果用戶關注兩種細胞類型之間的甲基化差異,scMethbBank也提供了一個預先計算的差異甲基化區域(DMR)的集合。仍然以GSE56879中的MII卵細胞與胚胎干細胞為例,通過在DMR瀏覽頁面中勾選數據集以及對應的兩種細胞類型,頁面將展示兩種細胞類型中存在的差異甲基化區域。同時為了進一步解讀,數據庫為這些區域提供了初步分析,包括在染色體和基因組區域上的分布情況、對應的基因以及這些基因注釋的通路等。
用戶可以點擊差異甲基化區域對應的基因鏈接跳轉至基因瀏覽界面,這一功能同樣可以通過用戶對預先感興趣的基因進行搜索實現。比如在搜索頁面中我們指定遺傳性乳腺癌相關基因BRCA1,通過表格最后一欄跳轉至基因頁面,頁面展示了數據庫中各種人類細胞類型在該基因上的平均甲基化水平,并可在JBrowse中進行交互式瀏覽和查看。
2. 甲基化模式區域可視化及細胞分群展示
單細胞甲基化數據與bulk數據不同,具有稀疏性和獨特的二值性,即非甲基化(0)和完全甲基化(1)兩種狀態,因此盡管可以通過計算區域內甲基化水平查看不同細胞之間的差別,但這種方式往往也會掩蓋單細胞甲基化模式的復雜性。scMethBank構建了TB級存儲的單細胞全基因組甲基化數據池,允許用戶從8000多個不同樣本中以單堿基精度檢索甲基化圖譜。通過指定感興趣的基因或者任何基因組區域后,數據庫會快速響應展示該區域樣本上的甲基化狀態,這里數據庫網頁提供了兩種可交互的可視化模式,仍然以GSE56879數據集中的幾個樣本在brca1基因上的甲基化模式展示為例:
棒棒糖圖,該圖中展示所有樣本每個CpG位點上的甲基化狀態,對于瀏覽已知DMR區域的甲基化pattern以及直觀展示區域內差異狀態都很實用熱圖,熱圖展示的也是在區域上的甲基化模式,相對于棒棒糖圖在更大尺度上直接展示單堿基上的甲基化狀態,并且可以同時顯示啟動子與基因體區。
此外,來自不同數據集的所有單細胞樣本的t-SNE 分析結果顯示在cell cluster模塊中,點的不同顏色代表不同的細胞群,并可以通過下拉選項指定著色方式和點的大小等。
3. 在線工具
最后介紹一下scMethBank中提供的工具。目前已發表的單細胞甲基化數據分析工具非常少,scMethBank提供了一系列用于下游分析的繪圖與富集分析工具。
LollipopPlotter,用來進行單細胞甲基化的Lollipop繪圖。使用起來非常簡單,三步即可。通過輸入文件,設置甲基化閾值以及調整繪圖設置,就可以快速獲得單細胞甲基化文獻中我們經常看到的棒棒糖圖(黑白點圖或者糖葫蘆圖)。
富集分析工具可以直接對用戶上傳的基因集合進行在線富集分析和可視化展示,也可以對分析得到的差異甲基化區域進行基因注釋以及富集分析。
scMethBank數據庫提供了數據的打包下載和ftp下載兩種批量下載方式,更多的細節及詳細使用方式可以在網頁在線幫助文檔中獲得。
參考文獻
Li R, Liang F, Li M, ZouD, Sun S, Zhao Y, Zhao W, Bao Y, Xiao J, Zhang Z. MethBank 3.0: a database ofDNA methylomes across a variety of species. Nucleic Acids Res. 2018 Jan4;46(D1):D288-D295. doi: 10.1093/nar/gkx1139. PMID: 29161430; PMCID: PMC5753180.
Zong W, Kang H, Xiong Z, Ma Y, Jin T, Gong Z, Yi L,Zhang M, Wu S, Wang G, Bao Y, Li R. scMethBank: a database for single-cellwhole genome DNA methylation maps. Nucleic Acids Res. 2021 Sep 27:gkab833. doi:10.1093/nar/gkab833. Epub ahead of print. PMID: 34570235.
有數據庫建設需求歡迎聯系我們定制
生物大數據時代,如何做好數據管理和再利用,發IF10+的數據庫文章?
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的国家生物信息中心在核酸研究发表单细胞DNA甲基化数据库—scMethBank的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: python中调用c库
- 下一篇: f2py支持在fortran语言中调用其
