谷歌的 AlphaGenome AI 让 DNA 变得可读——而且它在 GitHub 上

谷歌 DeepMind 的AlphaGenome今天发布的 不仅仅是 AI 科学军备竞赛的又一力作。它不仅提供 API 访问权限,可用于非商业研究,还提供丰富的文档和社区支持托管在 GitHub 上——这表明基因组学曾经局限于专门的实验室和付费数据集,现在正在迅速走向开放科学。
这是一件非常重要的事情。
想象一下,你的DNA就像一本巨大的说明书,指导你的身体如何运作。长期以来,科学家们只能真正理解那些直接指导你的身体如何构建物质的部分,比如蛋白质。但你的大部分DNA——超过90%——并非如此。它们并不直接构建任何东西。人们过去称之为“垃圾DNA”。
现在我们知道了,“垃圾指令”实际上在做一件很重要的事情:它有助于控制真实指令的使用时间和地点——有点像一个装满开关和旋钮的控制面板。问题是什么?它真的很难阅读和理解。
这就是 AlphaGenome 的作用所在。
AlphaGenome 是由 Google DeepMind 构建的强大 AI 模型,它比以往任何模型都能更好地解读 DNA 中这些令人困惑的部分。它使用先进的机器学习技术(例如图像生成器或聊天机器人背后的机器学习技术)来分析长达一百万个字母的 DNA 片段,并找出哪些部分是重要的,它们如何影响你的基因,甚至突变如何导致疾病。
这有点像拥有一台超级智能的人工智能显微镜,它不仅可以读懂手册,还可以弄清楚整个系统如何开启和关闭,以及当出现问题时会发生什么。
更酷的是,DeepMind 通过 API(一种计算机与其对话的方式)分享了这款工具,以便世界各地的科学家和医学研究人员可以免费在研究中使用它。这意味着它可以帮助加速遗传疾病、个性化医疗甚至抗衰老治疗等领域的发现。
简而言之:AlphaGenome 帮助科学家读取我们之前不了解的 DNA 部分——这可能会彻底改变我们治疗疾病的方式。
AlphaGenome 是一个深度学习模型,旨在分析 DNA 序列如何调控基因表达及其他关键功能。与以往仅解析短 DNA 片段的模型不同,AlphaGenome 可以处理长达一百万个碱基对的序列——这一前所未有的规模使其能够捕捉到以往方法所遗漏的远距离调控相互作用。
AlphaGenome 的核心优势在于其多模态预测引擎。与以往只能预测单一基因组活动的模型不同,该模型能够输出基因表达(RNA 测序、CAGE)、剪接事件、染色质状态(包括 DNase 敏感性和组蛋白修饰)以及 3D 染色质接触图的高分辨率预测。
这使得它不仅有助于精确定位细胞中哪些基因被开启或关闭,而且有助于理解基因组折叠、编辑和可及性的复杂编排。
该架构非常引人注目,但如果您在本地使用过 Stable Diffusion 或普通的开源 LLM,那么它仍然非常熟悉:AlphaGenome 使用受 U-Net 启发的神经网络,具有大约 4.5 亿个可训练参数。
是的,即使与那些处理数十亿个参数的弱小语言模型相比,这个数字也相当低。然而,考虑到DNA只处理4种碱基和2对碱基——而整个人类基因组基本上就是30亿对A-T和C-G字母的组合——它是一个非常特殊的模型,旨在将一件事做到极致。
该模型包含一个序列编码器,可将输入从单碱基分辨率下采样到更粗略的表示,然后,Transformer 模型将长距离依赖关系分层,最后由解码器将输出重构回单碱基级别。这使得模型能够以各种分辨率进行预测,从而实现细粒度和广义的调控分析。
该模型的训练依赖于大量公开可用的数据集,包括 ENCODE、GTEx、4D Nucleome 和 FANTOM5——这些资源共同代表了人类和小鼠细胞类型的数千个实验概况。
而且这个过程也相当快:使用谷歌的定制 TPU,DeepMind 仅用四个小时就完成了预训练和蒸馏过程,使用的计算预算仅为其前身 Enformer 的一半。
AlphaGenome 在 24 项序列预测测试中 22 项,以及 26 项变异效应预测中 24 项,均超越了最先进的模型。在以渐进式改进为常态的基准测试中,AlphaGenome 的表现罕见地全面超越了最先进的模型。事实上,它的表现非常出色,甚至可以比较突变和未突变的 DNA,并在几秒钟内预测出基因变异的影响——这对于研究人员绘制疾病起源图谱至关重要。
这很重要,因为非编码基因组包含许多控制细胞功能和疾病风险的调控开关。像 AlphaGenome 这样的模型正在揭示人类生物学在多大程度上受到这些先前不透明区域的控制。
人工智能对当今生物学的影响不容忽视。以 Ankh 为例,蛋白质语言模型由慕尼黑工业大学、哥伦比亚大学和初创公司 Protinea 的团队开发。Ankh 将蛋白质序列视为语言,生成新的蛋白质并预测其行为——类似于 AlphaGenome 翻译 DNA 调控“语法”的方式。
另一项相邻的技术,Nvidia 的 GenSLM展示了人工智能预测病毒突变和聚类基因变异以用于流行病研究的能力。同时,人工智能的应用促进了化学和基因疗法的进步。抗衰老干预措施突出基因组学、机器学习和医学的交叉点。
AlphaGenome 最重要的贡献之一是其易用性。该模型并非仅限于商业应用,而是可以通过公共 API 进行非商业研究。
虽然它尚未完全开源——这意味着研究人员无法在本地下载、运行或修改它——但其 API 和配套资源允许世界各地的科学家生成预测,针对不同物种或细胞类型调整分析,并提供反馈意见以完善未来的版本。DeepMind 已表示计划在未来推出更广泛的开源版本。
AlphaGenome 能够分析非编码变异(大多数与疾病相关的突变都发生于此),这或许能为遗传性疾病和罕见疾病带来新的认识。其高速变异评分技术也支持个性化医疗,即根据个人独特的 DNA 谱量身定制治疗方案。
目前,非编码基因组已不再是黑匣子,人工智能在基因组学中的作用也只会不断扩展。AlphaGenome 或许无法成为引领我们进入赫胥黎笔下“美丽新世界”的典范,但它清晰地预示着未来的发展方向:更多数据、更精准的预测,以及对生命运作方式更深入的理解。
- 本文分类:资讯
- 本文标签:无
- 浏览次数:12 次浏览
- 发布日期:1970-01-01 08:00:00
- 本文链接:https://www.quxiaohao.com/zixun/158913.html
发表评论 取消回复