Nat Biotechnol | 大神李恒团队开发不依赖于亲本的单倍型基因组组装工具hifiasm
對基因組相關研究而言,單倍型基因組組裝是研究結構,進化與變異的最理想方式。隨著長讀長測序技術的進步,高質量單倍型組裝已經成為了可能。然而,大部分組裝算法的結果仍是混合多個單倍型的壓縮序列,而不是完整的單倍型。對二倍體基因組而言,這種做法不可避免的損失了至少一半的單倍型信息。目前有一些組裝算法對此進行了嘗試,但是這類算法要么依賴難以獲取的親本信息進行分型 (trio-binning),要么無法生成高質量的單倍型組裝結果。因此,如何在不依賴親本信息的情況下,自動進行高質量的單倍型組裝,是一個亟待解決的問題。
2022年3月24日,哈佛大學醫學院/Dana-Farber癌癥研究所李恒課題組(第一作者為程昊宇博士)在Nature Biotechnology雜志發表論文?Haplotype-resolved assembly of diploid genomes without parental data【1】。該研究提出一種全新的基因組組裝算法hifiasm (Hi-C),能夠在不依賴親本的情況下簡單高效的生成高質量的單倍型組裝結果。通過和Vertebrate Genomes Project?(脊椎動物基因組計劃)?研究者的合作,李恒課題組證明了hifiasm?(Hi-C)?能夠廣泛的在人類和各種不同的非人物種上取得良好的結果。
Hifiasm?(Hi-C)?針對PacBio HiFi?(High-Fidelity)?長讀長測序技術和Hi-C?(High-Throughput Chromatin Confirmation Capture)?測序技術進行了全新的設計。該算法結合了HiFi數據中精確的局部單倍型信息和Hi-C數據中的長距離互作用信息以達到全局定相?(phasing),從而獲得不依賴親本信息的染色體級別的單倍型組裝結果。為了進一步提高組裝質量,作者充分利用了組裝圖中的結構信息,以及其前期研究中的Graph-binning等策略【2】。實驗結果表明,hifiasm?(Hi-C)?在各種不同物種和不同復雜程度的基因組上,均顯著優于現有的組裝算法?(表1)。
表1. Hifiasm (Hi-C)與其他組裝算法在人類基因組HG002上的結果
同時,hifiasm?(Hi-C)?也為基于組裝的復雜結構變異檢測設計了專門的模塊。目前已有大量研究表明,高質量的單倍型組裝序列在基因組復雜區域上的結構變異和疾病相關的基因檢測中,有著無可比擬的優勢【3,4】。Hifiasm?(Hi-C)?支持一種無需Hi-C數據的dual組裝模式,能夠在只有HiFi數據的基礎上,生成高質量的連續的組裝結果。盡管dual組裝模式只能保證局部定相的正確,但其在復雜結構變異檢測上和傳統的全局單倍型組裝有著幾乎相同的優勢。作者通過實驗證明。hifiasm?(Hi-C)?的dual組裝模式和傳統的全局單倍型組裝均能有效的解析與Williams–Beuren綜合征相關的致病基因GTF2IRD2,而基于序列比對?(read mapping)?的方法無法解決(圖1)。
圖1. 不同策略在復雜致病基因GTF2IRD2檢測中的結果
由于hifiasm?(Hi-C)?算法的能夠在生成高質量的單倍型組裝結果的同時達到計算高效性和易用性,其已經在諸如Human Pangenome Project?(人類泛基因組計劃)?和Vertebrate Genomes Project?(脊椎動物基因組計劃)?等大規模測序計劃中被廣泛測試和使用。作者同時期望在不久的將來,hifiasm?(Hi-C)?也能夠在與臨床相關的個性化基因組研究和應用中被普遍使用。
原文鏈接:
https://www.nature.com/articles/s41587-022-01261-x
制版人:十一 來源:Bioart
參考文獻
[1. Cheng H, Jarvis ED, Fedrigo O, Koepfli KP, Urban L, Gemmell NJ, Li H. Haplotype-resolved assembly of diploid genomes without parental data.?Nat Biotechnol. 2022.
2. Cheng H, Concepcion GT, Feng X, Zhang H, Li H. Haplotype-resolved de novo assembly using phased assembly graphs with hifiasm.?Nat Methods. 2021.
3. Wagner J, Olson ND, Harris L, McDaniel J, Cheng H, Fungtammasan A, et al. Curated variation benchmarks for challenging medically relevant autosomal genes.?Nat Biotechnol. 2022.
4. Noyes MD, Harvey WT, Porubsky D, Sulovari A, Li R, Rose NR, et al. Familial long-read sequencing increases yield of de novo mutations.?Am J Hum Genet. 2022.
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的Nat Biotechnol | 大神李恒团队开发不依赖于亲本的单倍型基因组组装工具hifiasm的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: vivado实现VGA
- 下一篇: 统计1000个10以内随机数随机数出现的