原文作者:Ewen Callaway
DeepMind 的 AI 工具 AlphaFold 确定了约 2 亿个蛋白质的结构,范围覆盖地球上几乎所有已知生物。
从现在起,确定几乎所有已知蛋白质的 3D 结构就和用谷歌(Google)搜索一样简单了。
研究人员用 AlphaFold ——革命性的人工智能(AI)网络——预测了 100 万个物种体内约 2 亿个蛋白质的结构,范围几乎囊括地球上所有已知蛋白质。
这些转储数据将在 DeepMind 和欧洲分子生物学实验室欧洲生物信息研究所(EMBL-EBI)共同建立的一个数据库中免费公开。负责开发 AlphaFold 的 DeepMind 是谷歌位于伦敦的一家 AI 公司;而 EMBL-EBI 是位于英国剑桥近郊的一个政府间组织。
"本质上,你可以理解为它覆盖了整个蛋白质宇宙,"DeepMind 的 CEO Demis Hassabis 在新闻发布会上说,"我们正处在数字生物学新时代的开端。"
图中为 AlphaFold 预测的蛋黄前体——卵黄蛋白原蛋白的结构。来源:DeepMind
蛋白质的 3D 构象或称结构决定了它在细胞中的功能。大部分药物的设计都需要用到结构信息,而构建蛋白质氨基酸的准确排列图谱往往是发现蛋白质如何工作的第一步。
DeepMind 利用名为深度学习的 AI 技术开发了 AlphaFold 网络,一年前上线的 AlphaFold 数据库共有 35 万个预测结构,覆盖了来自人、小鼠和 19 种其他被大量研究生物的几乎全部蛋白质。在那之后,这个数据库扩大到了约 100 万个结构。
伦敦大学学院计算生物学家 Christine Orengo 说:" 我们都在等待这个宝贵资源的公开。"Orengo 利用 AlphaFold 数据库寻找新的蛋白家族。" 把所有数据都替我们预测好简直不能再棒了。"
高质量结构
就在去年 AlphaFold 的公开在生命科学领域引发轰动后,领域内的研究人员纷纷开始利用这一工具。AlphaFold 能对蛋白质的 3D 结构进行非常准确的预测。它还能对它的预测结果进行评估,让研究人员知道哪些信息是可靠的。传统上,科研人员一直在用 X 射线晶体学和冷冻电镜这种耗时且成本高昂的实验技术解析蛋白质的结构。
EMBL-EBI 表示,在这些逾 2.14 亿个结构预测中,约 35% 的预测结果被认为准确度很高,即和实验解析的结构一样可靠。另有 45% 的预测被认为置信度足够高,在很多情况下都能使用。
AlphaFold 预测的许多结构都很可靠,能在很多情况下替代实验解析的结构。其他情况下,研究人员会用 AlphaFold 的预测结果验证和解读实验数据。不可靠的预测结果一望即知,其中一些源于蛋白质固有的无序性质,这种无序意味着蛋白质本身没有固定的形状,至少在没有其他分子的情况下是无序的。
几天前发布的这 2 亿个预测结构基于 UNIPROT 数据库中的序列。科学家可能对这些蛋白质中的一些形状已经有概念了,它们不是在实验解析结构的数据库中,就是与这类数据库中的其他蛋白类似,巴塞罗那 Josep Carreras 白血病研究所的计算生物学家 Eduard Porta Pardo 说。
DeepMind 的 CEO Demis Hassabis 说 AlphaFold 的新数据覆盖了 " 整个蛋白质宇宙 "。来源:Jung Yeon-Je/AFP/Getty
但 Porta 表示,这些结构一般集中在人、小鼠,和其他哺乳动物的蛋白质上,而 AlphaFold 的数据覆盖了更多不同的生物体,所以将极大地增进我们的认知。Porta 说:" 这个资源太无敌了。我会在公布的第一时间下载它。"
由于 AlphaFold 公开已有一年,所以研究人员已经能够预测他们想要的任何蛋白质的结构。但很多人也表示,把预测的结构集中到一个数据库可以节省研究人员不少时间、金钱和麻烦。" 这是可以去除的另一个准入门槛,"Porta 说," 我用过很多 AlphaFold 模型,但我从来没有自己运行过 AlphaFold。"
EMBL 在德国汉堡的结构建模师 Jan Kosinski 过去一年一直在运行 AlphaFold,他已经等不及看到这次的扩展了。他的团队用三周时间预测了一个病原体的蛋白质组——蛋白质组是指某个生物体的全部蛋白质集合。他在发布会上说:" 现在我们只要把所有模型都下载下来就可以了。"
23TB
把近乎所有已知蛋白都收入数据库也能推动新的研究。Orengo 的团队之前就在用 AlphaFold 的数据库寻找新的蛋白质家族,他们现在将把这个研究放到更大的尺度上。她的团队还将利用这个扩展后的数据库理解具有有益性质的蛋白质的演化,比如消化塑料的能力,或是具有能诱导癌症一类的有害的性质。在数据库中找出这些蛋白质的远亲可以了解这些性质的源头。
首尔大学计算生物学家 Martin Steinegger 协助开发了 AlphaFold 基于云的版本,他对数据库的扩大感到十分激动。但他说,研究人员可能仍然需要自己跑 AlphaFold。越来越多的人将 AlphaFold 用来确定蛋白质的相互作用,而数据库中并不包含这类预测信息。对从土壤、海洋和其他 " 宏基因组 " 来源的遗传物质进行测序从而确定的微生物蛋白也不包含在该数据库中。
Steinegger 说,对扩展后的 AlphaFold 数据库的一些更高级的运用可能也需要下载它全部 23TB 的内容,而这对许多团队来说是不切实际的。基于云的储存也很烧钱。Steinegger 与人共同开发了一个软件工具,名为 FoldSeek,可以快速找到结构相似的蛋白质,这应该能大大减少 AlphaFold 的数据量。
即使 AlphaFold 数据库已经包含了几乎全部的已知蛋白,但它仍需要根据新发现的生物体进行更新。AlphaFold 的预测准确度也会在获得新的结构信息后进一步提升。Hassabis 说,DeepMind 承诺会长期维护该数据库,他说他每年都能看到更新。
他希望 AlphaFold 数据库能给生命科学带来持久的影响。"这将需要我们彻底转变思考方式。"
原文地址:http://www.myzaker.com/article/62eb60b88e9f094f881c0981