青科沙龙第161期 | Cell-利用AI解读基因组转录调控语法
脊椎动物基因组的调控"语法"尚未被全面解析。为解决这一关键科学问题,浙江大学医学院/良渚实验室郭国骥教授团队取得系列突破性进展:首先绘制了首个哺乳动物与人类的单细胞分辨率细胞图谱,并基于此构建了基因组人工智能模型Nvwa(女娲),首次实现仅通过基因组序列即可精准预测单细胞水平的基因表达;随后开发了基因组突变效应预测模型Huatuo(华佗),能够预测人体2000余种细胞类型特异性表观修饰特征及基因表达,并构建了44种主要细胞类型的调控遗传变异图谱(相关成果发表于Nature Communications, 2023)。目前,团队正从生命表型测量技术和数据质量优化两个维度持续攻关,以进一步提升模型的准确性与泛化能力。
2025年7月8日,浙江大学医学院/良渚实验室郭国骥教授团队在 Cell 期刊发表了题为 “Modeling the vertebrate regulatory sequence landscape by UUATAC-seq and deep learning” 的研究论文,报告了一项具有里程碑意义的突破。该研究不仅开发了全球首个 超高通量、超高灵敏度的单核染色质可及性测序技术 UUATAC-seq(ultra-throughput ultra-sensitive single-nucleus ATAC-seq),还构建了深度学习模型 女娲CE(NvwaCE),首次实现了从基因组序列直接预测单细胞水平的染色质可及性图谱,为解码脊椎动物基因组的调控“语法”提供了革命性工具。
研究介绍
研究介绍
依托自主研发的UUATAC-seq技术,研究团队成功构建了哺乳类(小鼠)、鸟类(鸡)、爬行类(守宫)、两栖类(蝾螈)和水生类(斑马鱼)五大脊椎动物代表物种的单细胞分辨率顺式调控元件图谱,并在此基础上开发了多任务深度学习模型Nvwa-CE(女娲CE),首次实现仅通过基因组序列即可直接预测单细胞水平的调控元件活性图谱。研究发现脊椎动物调控"语法"的保守性显著高于核苷酸序列本身,且调控元件可归类为不同功能模块,从而揭示了细胞类型特异性基因表达的序列基础。
Nvwa-CE模型在跨物种预测(涵盖人、猴、牛、猪、马、羊、熊猫等)中表现出色,其预测值与实验实测值高度一致(相关系数>0.9),显著优于现有基因组AI模型。该模型在人类饱和突变数据集上展现出精准的非编码区突变效应预测能力,并成功通过实验验证了AI预测的镰刀型贫血症治愈性位点(HBG1-68:A>G)——基因编辑后人体细胞中胎儿血红蛋白表达量显著提升,标志着AI预测的非编码突变首次在人体细胞中实现功能验证。
相比 DeepMind 预发表的 AlphaGenome 模型,Nvwa 系列模型无需依赖 ENCODE 的复杂数据体系,即可实现单细胞水平的功能预测,且涵盖更丰富的在体细胞类型;相较斯坦福大学和英伟达联合开发的 evo2 模型,其不仅能解析脊椎动物细胞类型,也在跨物种预测能力和准确性方面表现更优。Nvwa-CE 采用分段式扫描策略,虽舍弃长序列输入,但大幅节省计算资源,并为调控元件间互作建模提供可能。模型构建依托目前质量最高的细胞图谱数据,几乎在所有细胞类型中实现 AUROC > 0.90 的预测精度,为其他同类模型所不及。
技术上,UUATAC-seq 实现了双重创新突破:通过双端同型转座酶结合体外精准温控策略,实现前所未有的超高灵敏度;采用独特四轮组合标签策略,显著提升通量,超越现有单细胞测序平台。其“DNA双链模板测序”技术打破传统单链限制,极大增强了染色质开放区域的解析能力,同时具备极强的样本兼容性,适用于新鲜及固定样本,克服现有技术在TSS偏向性等方面的局限。
在此平台支持下,研究系统解析了顺式调控元件“语法”背后的演化逻辑:基因组大小与开放区域数量呈高度正相关,单个开放区域长度在不同物种间表现出一致性,反映出进化中的功能保守性与结构稳定性。
文章研究机制图
本研究构建的 Nvwa-CE 模型 不仅深度解码了脊椎动物基因组调控的复杂语法,更在数字生命建模领域迈出了关键一步,其应用前景广阔且具有变革性意义:在 合成生物学 领域,该模型可精准设计具有特定调控功能的合成 DNA 元件,推动定向表型构建;在 遗传疾病研究 中,能够高效识别并验证致病性功能突变及潜在治疗靶点;在 农业育种 方面,则为高产、抗逆性畜牧及作物基因组的优化设计提供了全新工具。
综上,Nvwa-CE 模型建立了一套兼具广泛适应性和高预测精度的基因组 AI 技术体系,不仅开创了基因组调控研究的新范式,更将在生命科学、精准医学和现代农业等领域带来深远影响。
原文链接
浙公网安备 33019202000643号