让机器辨别气味:利用图神经网络预测分子的嗅觉属性
文 / Alexander B Wiltschko 高級研究員 Google Research
嗅覺是諸多生物體共有的一種感官,在生物體分析世界并作出相應反應方面起著至關重要的作用。對人類而言,我們的嗅覺與享用美食緊密相連,并且還能喚醒與之對應的鮮活記憶。嗅覺使我們可以感受日常生活中的各種香味,例如我們熟悉的玫瑰花香、新鮮出爐的餅干醇香,抑或是最喜歡的香水味道。雖然嗅覺很重要,但在機器學習研究中它并未像視覺與聽覺那般備受關注。
人類的氣味感知通過激活 400 種不同類型的嗅覺感受器 (Olfactory Receptors, OR) 來實現(xiàn)。嗅覺感受器位于鼻腔內(nèi)名為嗅覺上皮的小塊狀組織中,由 100 萬個嗅覺感應神經(jīng)元 (Olfactory Sensory Neurons, OSN) 組成。這些 OSN 將信號發(fā)送給嗅球(olfactory bulb),然后進一步傳遞到大腦皮層產(chǎn)生嗅覺。
基于視覺和聲音深度學習研究的類似進展,我們通過類比得知,即使不知道所有相關系統(tǒng)的復雜細節(jié),嗅覺深度學習應該也可以直接預測出輸入分子的最終感應結果。解決氣味預測問題將有助于發(fā)現(xiàn)新的合成氣味劑,從而減少取用天然產(chǎn)品造成的生態(tài)影響。審視生成的嗅覺模型甚至可以帶來嗅覺生物學的新見解。
小氣味分子是香精香料最基本的組成成分,因此也代表了最簡單的氣味預測問題。不過,每個分子都有多個氣味描述詞。例如,對于香蘭素 (Vanillin)的描述詞有 甜美、香草味、奶油味 和 巧克力味 等,其中的某些氣味會更為明顯。因此,氣味預測也是一個 多標簽分類 問題。
在“氣味機器學習:學習小分子的可泛化感知表征” (Machine Learning for Scent: Learning Generalizable Perceptual Representations of Small Molecules) 一文中,我們利用圖神經(jīng)網(wǎng)絡(Graph Neural Networks,? GNNs),在不采用任何人工規(guī)則的情況下,把?圖 (Graph) 輸入到 GNN,直接預測單個分子的氣味描述詞。GNN 是一種深度神經(jīng)網(wǎng)絡,可以對圖進行操作。研究證明,與目前的最新技術相比,此方法可顯著提高氣味預測能力,是非常有前景的未來研究方向。
-
氣味機器學習:學習小分子的可泛化感知表征
https://arxiv.org/abs/1910.10685
用于氣味預測的圖神經(jīng)網(wǎng)絡
分子與圖相似,原子就像圖中的點 (vertices),化學鍵就像圖中的邊 (edges),因此 GNN 是非常便于理解的自然模型選擇。
-
自然模型選擇
https://ai.googleblog.com/2017/04/predicting-properties-of-molecules-with.html
但如何將分子結構轉(zhuǎn)化為圖表征呢?首先,使用原子特征、原子電荷等任何首選特征將圖的每個節(jié)點表示為矢量。然后,在一系列消息傳遞步驟中,各節(jié)點將其當前的矢量值傳播到各自的相鄰節(jié)點。隨后,更新函數(shù)收集其收到的矢量,生成更新后的矢量值。此過程重復多次,直至圖中的所有節(jié)點通過求和及求平均值最終聚合為一個矢量。該矢量代表整個分子,隨后可將其作為已學習的分子特征傳遞到全連接網(wǎng)絡中。該網(wǎng)絡會輸出一個氣味描述詞預測結果,就像調(diào)香師提供的描述一樣。
每個節(jié)點都表示為一個矢量,矢量中的每個輸入項最初都會對某些原子級信息進行編碼
每個節(jié)點會查看其相鄰節(jié)點,并收集信息,然后使用神經(jīng)網(wǎng)絡將信息進行轉(zhuǎn)換,并更新中心節(jié)點的信息。反復執(zhí)行以上步驟。GNN 的其他變體會利用邊和圖的信息
氣味預測的 GNN 示意圖。我們將分子結構轉(zhuǎn)化為圖,然后將其輸入到 GNN,以學習更好地表示節(jié)點。最終圖中節(jié)點降維成一個矢量,傳遞到一個包含多個氣味描述詞的神經(jīng)網(wǎng)絡中輸出預測結果
此表征不涉及原子的空間位置,因此無法區(qū)分立體異構體,即原子組成相同但結構略有不同的分子。這種分子氣味可能不同,例如 (R)- 香芹酮和 (S)- 香芹酮,前者具有薄荷味而后者具有辛辣味。然而出乎意料的是,我們在實踐中發(fā)現(xiàn),即使不區(qū)分立體異構體,也可以很好地預測氣味。
對于氣味預測,GNN 實驗結果一致表明,與之前最先進 (SOTA) 的方法(比如隨機森林法)相比,此方法的效果更好,因為之前的方法不能直接對圖結構進行編碼。性能提升程度取決于嘗試預測的氣味類型。
氣味描述預測的表現(xiàn)對比:GNN vs 標準基準 (以 AUROC 分數(shù)衡量)。氣味描述詞為隨機抽取。值越接近 1.0 預測結果越準確。在大多數(shù)情況下,GNN 的表現(xiàn)大大超出該領域的標準基準,在其他評價指標下也基本如此(例如 召回率、精度、AUPRC等)
從模型中學習,并將成果擴展到其他任務
除了預測氣味描述詞以外,GNN 還可應用于其他嗅覺任務。例如,僅使用有限的數(shù)據(jù)對全新的或精煉后的氣味描述詞進行分類。我們針對每個分子提取表征。確切說,是從專為氣味描述詞優(yōu)化的模型的中間層提取已學習的表征,我們稱之為“氣味嵌入(odor embedding)”。您可將其理解為色彩空間的 RGB 或 CMYK。
為了解氣味嵌入是否適用于其他相似的預測任務,我們設計了實驗,以測試我們的模型在非預期情境中的表現(xiàn)。然后,我們將氣味嵌入表征與常見的化學信息表征進行比較,該信息表征可對分子結構信息進行編碼,但并不知道氣味。結果發(fā)現(xiàn),氣味嵌入普遍適用于具有挑戰(zhàn)性的新任務,甚至在某些方面符合最尖端的技術要求。
-
常見的化學信息表征
https://pubs.acs.org/doi/abs/10.1021/ci100050t
突出顯示某些氣味的嵌入空間的二維可視化(高亮顯示了部分氣味)左圖:每種氣味在空間中呈現(xiàn)出聚集的表征。右圖:氣味描述詞呈現(xiàn)出層級嵌套的表征。陰影和輪廓線通過嵌入的核密度估計法計算得出。
未來工作
在機器學習領域中,嗅覺仍然是最難以捉摸的感官。我們很高興通過不斷的基礎研究逐漸揭開了這個領域的一角。未來的研究大有可為,從設計更廉價更可持續(xù)生產(chǎn)的新氣味分子,到數(shù)字化香味,甚至在某天讓喪失嗅覺的人能夠嗅到玫瑰花香(也可能是臭雞蛋味),不一而足。我們還希望通過創(chuàng)建和共享優(yōu)質(zhì)的開放數(shù)據(jù)集,讓更多的機器學習研究人員關注這個方向。
致謝
此早期研究是 Google Brain 團隊以下出色研究員與工程師的辛勤成果和智慧結晶:Benjamin Sanchez-Lengeling、Jennifer Wei、Brian Lee、Emily Reif、Carey Radebaugh、Max Bileschi、Yoni Halpern 和 D. Sculley。我們很高興能夠與亞利桑那州立大學的 Richard Gerkin 和多倫多大學的 Alán Aspuru-Guzik 協(xié)作開展此項研究。當然,先前完成的大量工作也為我們的研究奠定了基礎,而且 Justin Gilmer、George Dahl 等人的 GNN 基礎方法研究,以及其他神經(jīng)學、統(tǒng)計學和化學成果也使我們受益匪淺。此外,我們還要感謝 Steven Kearnes、David Belanger、Joel Mainland 和 Emily Mayhew 提供寶貴意見。
更多 AI 相關閱讀:
-
探索海量多語言大規(guī)模神經(jīng)機器翻譯
-
多語言識別的實現(xiàn)
-
視頻架構搜索的研究
總結
以上是生活随笔為你收集整理的让机器辨别气味:利用图神经网络预测分子的嗅觉属性的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: TPM分析笔记(二)TPM2.0 规范文
- 下一篇: Fastdfs预留空间问题排查分析