点赞

DeepMind 最新突破 Alphafold 2.0 的冲击和完整叙事

发布时间: 2020-12-01 发布来源:数据实战派

20
2887

作者:林檎

结构决定功能,是自然界存在的一个普遍法则。蛋白质就是一个很好的例子。

要了解生命,你必须了解蛋白质。由 20 种称为氨基酸经化学链接而成,这些长长的、错综复杂的分子链,如同生物界的 “工蚁”:蛋白质以酶的形式,催化了几乎所有的化学反应,使身体得以运转;肌动蛋白和肌球蛋白,支撑躯干的运动;角蛋白构成皮肤和头发;血红蛋白为身体输送氧气;胰岛素调节新陈代谢;而在最近,SARS-CoV-2 具有的某些蛋白质,允许冠状病毒侵入人体细胞,从而使整个人类经济社会瘫痪。

分析一种蛋白质的氨基酸组成并不难,相关的技术已经存在并发展了数十年。但这仅仅是了解蛋白质工作原理的一小步。

因为蛋白质发挥怎样的功能,又是如何发挥功能的,还取决于它的氨基酸链在被创造出来后,如何折叠成最终的复杂形状。

1972 年诺贝尔化学奖得主 Christian Anfinse 曾提出这一个假设,理论上,蛋白质的氨基酸序列应该完全决定其结构。1969 年,Cyrus Levinthal 指出,通过蛮力计算来列举一个典型蛋白质的所有可能结构所需要的时间,比已知宇宙的年龄还要长,Levinthal 估计一个典型蛋白质的可能构型有 10^300种。

当然,如今人类所拥有的技术手段,已经比那时候要强多了。

在过去的五十年中,人类已经能够利用冷冻电子显微镜、核磁共振或 X 射线晶体学等实验技术在实验室中确定蛋白质机构,但都依赖于大量的试错,可能需要数年时间,要花费数万美元。 

图片出处:DeepMind

有人将这件事情变得更加简单了。11 月 30 日,Alphabet 旗下的 AI 公司 DeepMind 展示了他们如何利用 AI “AlphaFold 2.0” 预测蛋白质结构的最新成果。在权威蛋白质结构预测评估竞赛(CASP),AlphaFold 2.0 的准确度排名第一。

game changer 的出现

对于非生物领域的读者来说,这则消息可能听起来介于神秘主义和稀疏平常之间。毕竟,DeepMind 曾经开发出 Alphago 战胜人类棋手的新闻,更具有直观冲击性。

事实上,这是一个显著的成就。正如 Nature 对这项进展的报道中所肯定的,game changer 出现了。

利用计算机预测蛋白质形状的想法已经有半个世纪的历史了。总部位于德国的欧洲分子生物学实验室(European Molecular Biology Laboratory)副主任 Ewan Birney 说,该领域总是有进展,只不过进步的速度比较平缓缓慢,甚至还出现过错误的转折以及过早地宣布胜利。例如,在 1980 年代和 1990 年代,当其他科学家将程序应用于另一种蛋白质时,原本在论文中奏效的一些方法往往会失效。

因此,这个变得更 “谦逊” 的领域,通过启动 CASP 来更严格和系统地衡量具体的进展。

始于 1994 年 CASP 每两年举办一次,被称作 "蛋白质折叠的奥林匹克"。该竞赛会选择最近才通过实验确定的蛋白质结构(有些结构在评估时仍在等待确定)作为团队测试其结构预测方法的目标,也就是说,这些结构不会提前公布。参赛者必须盲测蛋白质的结构,这些预测随后会在获得真实实验数据时与之进行比较其中。

AlphaFold 的神经网络模型构架。图片出处:DeepMind

今年则是 DeepMind 第二次参加该比赛。

它的第一次尝试,也就是 AlphaFold 1.0 版本,在两年前第一次亮相时表现就比当时的程序要好得多,因此在该领域引发关注。而这一次的最新版本,即 AlphaFold 2,进一步扩大了领先优势(见下图)。

图片出处:DeepMind

CASP 衡量预测准确性的主要指标是全局距离测试(Global Distance Test,GDT),需要比较分子结构中原子的预测位置和它们在现实中的位置,分数为 0 到 100 分。简单来说,GDT 可以认为是指氨基酸残基与正确位置的阈值距离内的百分比。据 Moult 教授介绍,GDT 在 90 分左右,即可认为预测的结果具有竞争力。

于今天公布的第 14 届 CASP 排名中,AlphaFold 2.0 系统在所有目标中总体达到了 92.4 GDT 的中位数,意味着预测平均误差(RMSD)约为 1.6 埃,与一个原子的宽度(或 0.1 个纳米)相当。即使对于最难的蛋白质目标,即那些最具挑战性的自由建模类别,AlphaFold 也实现了 87.0 GDT 的中位数得分。

AlphaFold 预测的蛋白结构与实验手段解析的结果几乎完全重合。图片出处:DeepMind

AlphaFold 所实现的和未实现的

Science 杂志曾指出,蛋白质折叠问题是人类在 21 世纪需要解决的 125 个科学前沿问题之一。通过蛋白质结构预测破译 “第二遗传密码”,是生物学中心法则尚未揭示的奥妙之一,也是目前结构生物学面临的一项具有挑战性的重大基础性研究课题。

这也是为什么 DeepMind 在 2018 年亏损额高达 5.72 亿美元的情况下,仍对蛋白质折叠所感兴趣的原因。这个问题完全符合该公司 “真实世界中更大的科学问题” 的定义。

此前,DeepMind 最为外人所知的,是其开发的下棋 AI AlphaGo。但对比探索蛋白质折叠问题和下围棋,前者面临着截然不同的挑战。

难度之一在于用计算蛮力的有限。围棋被认为有大约    个合理位置,这个数字远远超过了可观察宇宙中的原子数量,但蛋白质仍要更复杂。如本文开头所言,一个合理复杂的蛋白质可能会有多达    种不同的形状。

更不用提,蛋白质最终形成所需的形状,还有原子尺度上各氨基酸构件之间的相互内部作用,以及与其周围的任何其他分子,特别是水分子的平衡。预测蛋白质折叠就是一个需要大量试错的过程。人们甚至为此设计了一个名为 "FoldIt" 的游戏。"FoldIt" 于 2008 年推出,邀请玩家自己尝试折叠蛋白质,由此还产生了大量的论文和新发现。

不过,如果让 "FoldIt" 的玩家解释他们到底在做什么,事情就变棘手了。这一点倒是与围棋有相似之处。两款游戏的玩家都不会一步步解释自己在想什么,而是倾向于用 "直觉" 和 "感觉这么做就对了" 这类模糊的解释。

作为一项人工智能成果,AlphaFold 2 并未像 AlphaGo 那样近乎棋类 AI “开山鼻祖” 的地位。

如我们上文所言,AlphaFold 2 之前,就已经有很多其他研究小组将机器学习应用于蛋白质结构问题,并取得了令人鼓舞的进展。国内也有不少团队在做类似的研究。

但 DeepMind 具体究竟通过什么方法实现了如此的跨越,目前还不清楚。不过该公司已经承诺将发表一篇技术论文,深入探讨 AlphaFold 2.0 的实现细节。目前,该项目负责人 John Jumper 透露,团队已经放弃了他们在 2018 年用于构建 AlphaFold1.0 的系统,因为它已经明显达到了能力极限。

John Jumper 认为,AlphaFold 2.0 的准确性还有进一步提升的空间。目前,仍有一些事情是它能力所无法企及的,比如几个蛋白质连接在一起构建的结构是怎样的。

所以,AlphaFold 的出现,并不意味着人类在蛋白质结构预测上就 “无事可做” 了。

站在更全面的计算生物学视角,一篇名为 Computational Structural Biology: Successes, Future Directions, and Challenges 的论文,也曾在 2019 年评估过 DeepMind 引领的这股新力量。

该论文指出,与计算生物学相交织,计算结构生物学不断摸索出自己的道路,经过 50-60 年的发展,根据蛋白质序列预测蛋白质三维结构的问题仍然没有解决。随着从 "第一原理" 出发的 "真实" 拟态折叠的进展明显停滞,焦点已经转移到建模算法中的三个部分:能量函数、构象搜索和模型选择。

2018 年 CASP 中,DeepMind 的深度学习方法 AlphaFold 在约一半的目标上表现优于其他团队。然而,即使经过团队两年努力,它也在超过一半的目标上失败了,而且和大多数方法一样,AlphaFold 考虑的是相当限定范围的结构预测问题。因为,从广义上讲,计算结构生物学关注生物大分子的结构及其相互作用,还不不仅是大分子之间的相互作用,与水、离子、脂类或溶液中或(膜上或膜中)的小分子效应物的相互作用,以及其中修饰和突变的后果,都要纳入考量之中。如此才能真正借助模拟和利用结构来理解蛋白质的功能和功能障碍。

这种结构动力学包含了状态之间的波动,对于蛋白质具体功能的阐明至关重要。这并不是一个简单的问题。

正如纽约州石溪大学的生物学家 Ken Dill 所指出的,AlphaFold 和它的 “竞争对手”—— 现有的 X 射线晶体学等技术 —— 所发现的结构都是静态结构。而生物学中的种种因果,实际来自于大量分子之间的 “社会关系” 及其相互作用。

" 这有点像有人问汽车是怎么工作的,你打开引擎盖拍了一张照片,然后说‘这就是它的工作原理!'。换句话说,这张照片很有用。但并不是完整的叙事”。

Refrence:

[1]https://deepmind.com/research/case-studies/alphafold

[2]https://www.nature.com/articles/d41586-020-03348-4

[3]https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6384756/

 

 

展开
收起