基因界谷歌 | 中国人自己的生命大数据平台,来了!
編者按
5 月 27 日,生命大數(shù)據(jù)高峰論壇暨第四屆基因組云計(jì)算技術(shù)開發(fā)者峰會(huì)(GCTA 4)在貴陽隆重舉行。作為 2019 數(shù)博會(huì)的重要組成部分,會(huì)議聚焦“閱讀、管理、理解、計(jì)算生命大數(shù)據(jù)”,分享前沿學(xué)術(shù)報(bào)告,解讀最新政策及行業(yè)動(dòng)態(tài),為生命大數(shù)據(jù)的研究與應(yīng)用再添新動(dòng)力。接下來科技君不定期為您分享大會(huì)上的精彩報(bào)告。第一期來自深圳國家基因庫大數(shù)據(jù)應(yīng)用負(fù)責(zé)人魏曉鋒的主題報(bào)告《構(gòu)建生命大數(shù)據(jù)應(yīng)用平臺(tái)》。
圍繞如何搭建生命應(yīng)用大平臺(tái),魏曉鋒分享了國家基因庫生命大數(shù)據(jù)平臺(tái)(CNGBdb)的設(shè)計(jì)思路及服務(wù)優(yōu)勢(shì),并展示了 CNGBdb 在助力生命大數(shù)據(jù)研究與應(yīng)用方面取得的成果。以下是內(nèi)容詳情。
生命大數(shù)據(jù),挖掘種質(zhì)資源
生命就是大數(shù)據(jù),其載體可能是動(dòng)物、植物,也有可能是細(xì)胞,甚至磁盤或磁帶。這里涉及一個(gè)關(guān)鍵詞:種質(zhì)(編者注:種質(zhì)是指生物體親代傳遞給子代的遺傳物質(zhì),往往存在于特定品種之中。 如古老的地方品種、新培育的推廣品種、重要的遺傳材料以及野生近緣植物,都屬于種質(zhì)資源的范圍)。
哪些種質(zhì)的應(yīng)用對(duì)經(jīng)濟(jì)有較大價(jià)值?中國的種質(zhì)資源豐富到什么程度?對(duì)于豐富的種質(zhì)資源,應(yīng)該如何做好信息存儲(chǔ)?
另外,每個(gè)人都是一個(gè)行走的大數(shù)據(jù)庫。每個(gè)人從受精卵成長(zhǎng)及至衰老,整個(gè)身體里動(dòng)態(tài)維持著 40 多萬億細(xì)胞,每個(gè)細(xì)胞里都有 23 對(duì)染色體。IT 領(lǐng)域經(jīng)常提到一個(gè)詞叫量級(jí),提升一個(gè)量級(jí)需要經(jīng)常更新方法。而在 BT 領(lǐng)域的難題是,我們每個(gè)人有 3G 的基因組數(shù)據(jù),通過測(cè)序分析會(huì)產(chǎn)生數(shù)百 GB 甚至 1TB 以上的數(shù)據(jù)。海量數(shù)據(jù)對(duì)平臺(tái)和方法有更嚴(yán)苛的要求。
搭建數(shù)據(jù)組織的頂層設(shè)計(jì)
面對(duì)龐雜的數(shù)據(jù),CNGBdb 團(tuán)隊(duì)把自身的數(shù)據(jù)和公開的信息進(jìn)行了整合。那么,如何在上層構(gòu)建一個(gè)新的載體以組織連接?魏曉鋒認(rèn)為,在這個(gè)平臺(tái)上,需要做三件事情:數(shù)據(jù)、系統(tǒng)、網(wǎng)絡(luò)。
具體到數(shù)據(jù)。CNGBdb 構(gòu)建了一個(gè)數(shù)據(jù)倉庫,整合了內(nèi)外部的數(shù)據(jù),建立標(biāo)準(zhǔn)流程,所有的數(shù)據(jù)都以節(jié)點(diǎn)的形式來承載。
此外還有數(shù)據(jù)挖掘。整個(gè)平臺(tái)被分成數(shù)據(jù)層、平臺(tái)層、應(yīng)用層。未來,用戶如需創(chuàng)建數(shù)據(jù)應(yīng)用,只需一個(gè)按鈕,就能像做選擇題一樣選擇相關(guān)模塊。
對(duì)應(yīng)到網(wǎng)絡(luò),作為一個(gè)平臺(tái),并不是一個(gè)孤獨(dú)的數(shù)據(jù)點(diǎn)。CNGBdb 整合了全球的公開生命數(shù)據(jù)資源,覆蓋母嬰健康、腫瘤、動(dòng)植物多樣性、病原微生物等十幾個(gè)研究領(lǐng)域,形成一個(gè)超大型的科研數(shù)據(jù)系統(tǒng)。
CNGBdb,打造基因界的谷歌
CNGBdb 的主頁界面
魏曉鋒介紹,CNGBdb 目前已經(jīng)建立覆蓋健康與疾病、生物多樣性、微生物等領(lǐng)域的十大專有數(shù)據(jù)庫,專精專用;支撐數(shù)十篇科研成果發(fā)表,被《Cell》《Nature Genetics》《Nucleic Acids Research》等國際期刊引用;并通過樣本信息共享平臺(tái)(E-BioBank)對(duì)外共享相關(guān)信息,而且配有對(duì)應(yīng)的標(biāo)本照片。
可以說,CNGBdb 以統(tǒng)一門戶的形式,為用戶一站式解決搜、存、算、用全部需求,且對(duì)用戶免費(fèi)開放,努力打造“基因界的谷歌”。
CNGBdb 一站式解決搜、存、算、用全部需求
此外,依托國家基因庫對(duì)生物數(shù)據(jù)的“存”、“讀”、“寫”聯(lián)動(dòng),CNGBdb 將樣本元數(shù)據(jù)與生物樣本甚至活體信息相關(guān)聯(lián),因此數(shù)據(jù)可以在“生物活體——生物樣本——生物信息數(shù)據(jù)”全過程中進(jìn)行追溯,實(shí)現(xiàn)綜合數(shù)據(jù)的全貫穿。
魏曉鋒稱,從開始的“載體”到“連接”,再到最后以“平臺(tái)”的形式展示,CNGBdb 作為一個(gè)對(duì)外的窗口,展示了數(shù)據(jù)的可能性。另外,就服務(wù)體驗(yàn)而言,CNGBdb 更希望做成一本字典,讓所有人通過這個(gè)字典都可以方便快捷地了解到更多更豐富的信息。
未來,CNGBdb 將持續(xù)促進(jìn)生命大數(shù)據(jù)的共享與利用,使生物信息數(shù)據(jù)在生命科學(xué)與生物產(chǎn)業(yè)發(fā)展中創(chuàng)造更大價(jià)值。
整理、編輯:市場(chǎng)部
總結(jié)
以上是生活随笔為你收集整理的基因界谷歌 | 中国人自己的生命大数据平台,来了!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 新的帕金森病生物标志物,可能就藏在脑电图
- 下一篇: 华为出售全球海底光缆业务