NeuSomatic:基于深度CNN的肿瘤体细胞突变检测工具
作者丨Peter??
單位丨某基因科技公司生物信息工程師
研究方向丨生物信息
在 3 月 4 號(hào)的“Nature”子刊中,展示了利用深度 CNN 來(lái)檢測(cè)體細(xì)胞突變的新工具“NeuSomatic”,該工具使用 PyTorch 寫(xiě)成,支持 GPU,對(duì)于同等數(shù)量的數(shù)據(jù)(30X),訓(xùn)練時(shí)間相比之前谷歌提出的 Deep Variant 所需的 1000 CPU 時(shí),僅需 156 CPU 時(shí)。
網(wǎng)絡(luò)結(jié)構(gòu)
體細(xì)胞突變(Somatic Mutation),常見(jiàn)于癌癥相關(guān)的研究。癌癥的成因是細(xì)胞中有害突變的累積導(dǎo)致的細(xì)胞無(wú)限增殖,通過(guò)測(cè)序技術(shù),可以檢測(cè)出癌細(xì)胞中特有的突變,如果癌細(xì)胞正好有靶向藥針對(duì)的靶點(diǎn)突變,那使用靶向藥治療就能顯著提高患者的生存時(shí)間,這就是常說(shuō)的針對(duì)癌癥的精準(zhǔn)個(gè)性化醫(yī)療。
但癌細(xì)胞的突變,其結(jié)構(gòu)更加復(fù)雜,多樣性更高,檢測(cè)的難度也更大。傳統(tǒng)的方法,不管是準(zhǔn)確性還是查全率,都有顯著提升的空間。?
為了確認(rèn)哪些是癌細(xì)胞特有突變,會(huì)對(duì)腫瘤組織和正常細(xì)胞分別采樣測(cè)序,之后比較其中的差距。由于癌細(xì)胞的突變往往會(huì)形成較為復(fù)雜的內(nèi)部結(jié)構(gòu),因此更難以檢出。
之前的利用深度學(xué)習(xí)做變異檢測(cè)工具,例如 Deep Variant,只能用來(lái)檢測(cè)來(lái)自父母遺傳得出的非體細(xì)胞突變。NeuSomatic 作為一個(gè)新的工具,效果好于目前該領(lǐng)域常用的方法,通過(guò) ensemble 的方法,可以加入檢測(cè)流程中,用于提升檢測(cè)出變異的準(zhǔn)確性和完整性。
上圖展示了該問(wèn)題的輸入數(shù)據(jù),Ref(參考序列)代表大部分人的基因序列,正常細(xì)胞和癌癥細(xì)胞測(cè)序得出的讀(read)是將 DNA 長(zhǎng)序列打斷測(cè)序后得出的片段。中間的圖展示的是將測(cè)序得出的讀比對(duì)后的結(jié)果,其中的黃色代表可能的體細(xì)胞單堿基突變(Single Nucleotide Vantiantion)。
例如此處的 T 在正常細(xì)胞中都是沒(méi)有突變的,但在癌細(xì)胞中卻又部分變成了 C。而上圖中間的是可能的插入類突變,在癌癥的樣本中,相比正常的樣本中的讀,標(biāo)出的部分在部分讀上顯示有多出的堿基,而這些在正常組織的讀中都不存在。
NeuSomatic 按照堿基類型,以及該堿基上支持的讀的數(shù)目多少,將比對(duì)的結(jié)果做了轉(zhuǎn)換,得出右圖,其中的“-”代表這個(gè)位置出現(xiàn)了一個(gè)空缺(gap)。
上圖展示了模型的處理流程其中的 reference channel,tumor coverage channel,和 normal coverage channel 分別是上圖展示的矩陣,同時(shí)還會(huì)將該位置上人群中的突變概率,癌細(xì)胞中之前記錄的突變頻率以及比對(duì)中的質(zhì)量值等信息以矩陣的形式輸入。
這里的 position 指的是矩陣對(duì)應(yīng)的讀在測(cè)序得出的讀中處在什么位置,例如對(duì)于測(cè)序產(chǎn)生的讀長(zhǎng)為 200bp(base pair)的讀,每個(gè)矩陣處理的只是其中的 64bp,因此需要標(biāo)注其位置信息。
NeuSomatic 同時(shí)還支持將其他檢測(cè)體細(xì)胞突變的方法的輸出,按照矩陣的形式當(dāng)成輸入,從而實(shí)現(xiàn)在一個(gè)框架下對(duì)多個(gè)模型進(jìn)行整合。?
之后的數(shù)據(jù)處理 CNN 標(biāo)準(zhǔn)的三明治結(jié)構(gòu)(卷積,批量正則化,池化),引入了短路來(lái)解決網(wǎng)絡(luò)過(guò)深的問(wèn)題,之后通過(guò)變異類型的分類器來(lái)判斷變異屬于插入,刪除,與單堿基突變中的一種,以及變異的長(zhǎng)度(0,1,2,或大于等于 3),并通過(guò)回歸的方式,確定變異所在的位置。
針對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的選擇,在訓(xùn)練前,嘗試了 ResNet-18 中的多種結(jié)構(gòu),將訓(xùn)練數(shù)據(jù)一分為二,一半用來(lái)訓(xùn)練當(dāng)前認(rèn)為最好的網(wǎng)絡(luò)結(jié)構(gòu),一半用來(lái)訓(xùn)練新嘗試的網(wǎng)絡(luò)結(jié)構(gòu)。
在訓(xùn)練了一段時(shí)間后,下表展示了不同網(wǎng)絡(luò)結(jié)構(gòu)的對(duì)比。根據(jù)對(duì)不同網(wǎng)絡(luò)結(jié)構(gòu)的對(duì)比,選擇了圖 g 的結(jié)構(gòu)作為 NeuSomatic 的網(wǎng)絡(luò)結(jié)構(gòu),從而保證在 SNV 及 INDEL 上都能有較好的表現(xiàn)。
介紹了網(wǎng)絡(luò)結(jié)構(gòu),那該怎么將問(wèn)題轉(zhuǎn)化為監(jiān)督學(xué)習(xí)了?答案是用模擬數(shù)據(jù),根據(jù)真實(shí)突變發(fā)生的頻率,模擬 DNA 序列某位置已發(fā)生突變,這樣在知道了答案的前提下,去將為訓(xùn)練數(shù)據(jù)加上標(biāo)簽。遇到真實(shí)數(shù)據(jù)時(shí),就用在模擬數(shù)據(jù)中訓(xùn)練好的模型進(jìn)行分類。
實(shí)驗(yàn)
最后看一看該方法在真實(shí)數(shù)據(jù)上的準(zhǔn)確性,這里采用了公開(kāi)的數(shù)據(jù)集,使用了通過(guò)實(shí)驗(yàn)驗(yàn)證的腫瘤細(xì)胞細(xì)胞系中的體細(xì)胞突變作為真集。可以看出 NeuSomatic 的表現(xiàn)好于 NeuSomatic-S,這是由于前者在輸入中結(jié)合了上述的所有常規(guī)方法的結(jié)果,對(duì)其進(jìn)行了整合,而 NeuSomatic-S 則只是用了原始的測(cè)序數(shù)據(jù)當(dāng)做輸入。在運(yùn)行時(shí)間上,前者是后者的 3.5 倍。
在論文中,作者還驗(yàn)證了該方法對(duì)于不同測(cè)序平臺(tái)(二代與三代)的數(shù)據(jù),都具有適用性。并且在不同的測(cè)序深度下,都表現(xiàn)明顯好于已有的方法。
總結(jié)
NeuSomatic 是第一種使用深度學(xué)習(xí)進(jìn)行體細(xì)胞突變的工具,其表現(xiàn)顯著優(yōu)于之前的方法。使用 NeuSomatic,可以提高準(zhǔn)確檢查出靶點(diǎn)變異的幾率,避免漏檢,從而更高效的指導(dǎo)他人精準(zhǔn)用藥。達(dá)到之前方法相同的準(zhǔn)確度,需要的測(cè)序數(shù)據(jù)也會(huì)有顯著的降低,從而可以降低檢測(cè)的成本。在方法學(xué)上,該方法的創(chuàng)新點(diǎn)在于將其他檢測(cè)方法的輸出和中間結(jié)果等作為輸入,從而做到了再一個(gè)框架下整合多種方法。
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
Airbnb實(shí)時(shí)搜索排序中的Embedding技巧
圖神經(jīng)網(wǎng)絡(luò)綜述:模型與應(yīng)用
近期值得讀的10篇GAN進(jìn)展論文
自然語(yǔ)言處理中的語(yǔ)言模型預(yù)訓(xùn)練方法
從傅里葉分析角度解讀深度學(xué)習(xí)的泛化能力
深度思考 | 從BERT看大規(guī)模數(shù)據(jù)的無(wú)監(jiān)督利用
AI Challenger 2018 機(jī)器翻譯參賽總結(jié)
小米拍照黑科技:基于NAS的圖像超分辨率算法
異構(gòu)信息網(wǎng)絡(luò)表示學(xué)習(xí)論文解讀
不懂Photoshop如何P圖?交給深度學(xué)習(xí)吧
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢??答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
??來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 下載論文 & 源碼
總結(jié)
以上是生活随笔為你收集整理的NeuSomatic:基于深度CNN的肿瘤体细胞突变检测工具的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: ACM MM18 | 用于跨模态检索的综
- 下一篇: “让Keras更酷一些!”:分层的学习率