一个全新的宇宙

前沿科技 2年前 (2022) 虚像
2 0 0
一个全新的宇宙

生物学难题:蛋白质折叠

在我们身体的每个细胞中,有数十亿个正在努力工作的微型机器——它们在我们的血液中携带和运输氧气,让我们的眼睛能感知光线,甚至我们的肌肉能够正常运动也与它们有关,这些机器就是蛋白质

蛋白质支撑着所有生物的每一个生物过程,每种蛋白质都是具有独特的三维形状的复杂大分子。如果将每种蛋白质都解开,你会发现它们就像一串串由 20 种不同的氨基酸,以不同的顺序排列组合构成的氨基酸链。氨基酸之间的相互作用使蛋白质折叠成几乎有着无限可能的形状。

蛋白质形状的折叠和盘绕被称为 " 蛋白质折叠 " 问题,它们的结构在很大程度上决定了其功能及运作方式。能够准确预测蛋白质的结构可以帮助科学家了解一些问题,例如突变是如何改变蛋白质形状从而导致疾病的。这些信息能进一步帮助研究人员更好地研制疫苗和药物。

一直以来,科学家试图用各种方法来破解蛋白质形状的秘密,比如他们会使用 X 射线轰击蛋白质晶体。这些实验方法大多需要投入大量的人力、时间和金钱。目前,科学家已经发现了超过 2 亿种蛋白质,而且这一数字每年都在增加,但其中只有约 20 万个蛋白质的三维结构是通过这些细致而昂贵的实验工作揭示的。

可以说,遗传学家破译制造蛋白质的 DNA 指令的速度,已经远远超过了结构生物学家解构蛋白质的能力。因此,许多研究人员一直梦想着能拥有一种可以预测蛋白质会如何折叠的计算机程序。

由 DeepMind 团队开发的AlphaFold,就是一个专门为解决这个难题而发展出的人工智能系统。

AlphaFold 的到来

1994 年,对蛋白质折叠感兴趣的科学家组织了学术论坛 CASP(蛋白质结构预测的关键评估),目的是为了让相关领域的研究人员能更好地分享和交流研究进展。CASP 还为研究人员设立了一项两年一次的预测蛋白质结构的比赛。

参与比赛的选手需要利用他们的算法,对一组已通过实验确定结构的蛋白质进行结构预测,然后将机器预测的结果与实验测得的结果进行比较,检查预测的准确性。大多数人工智能都无法得到接近蛋白质的实际形状的结果。

AlphaFold 的发展最早可以追溯到 2016 年,那时,DeepMind 团队开始酝酿应对这一挑战。他们结合了几种深度学习技术,利用由世界各地的科学家苦心绘制出的 10 多万种蛋白质的序列和结构对 AlphaFold 进行训练。

2018 年,AlphaFold 在这项比赛中获得了第一名。2020 年,AlphaFold 的出现惊艳了众人。它以高准确率预测了 90% 的测试蛋白质的结构,其中 2/3 的结果有着能与实验方法相媲美的准确率。

2021 年,AlphaFold 预测了 35 万个蛋白质结构,这包括了几乎所有已知的人类蛋白质。DeepMind 与欧洲分子生物学实验室的欧洲生物信息学研究所合作,将这些结构提供到一个公共数据库中。

到了今年 7 月,当世界各地的人们惊叹于韦布空间望远镜拍摄到的最美宇宙图片时,生物学家则首次瞥见了的一组足以掀起一场生命科学研究革命的图像,这些图像正是由 AlphaFold 渲染的 2 亿多蛋白质的 3D 预测形状。

可以说,AlphaFold 已经将基因库扩展到了地球上几乎所有进行过基因组测序的生物,它覆盖的是整个蛋白质 " 宇宙 "。现在,我们可以像在搜索引擎中搜索关键词一样,轻松地查找蛋白质的 3D 结构。

预测带来突破

虽然这些都只是预测的结构而非实际结构,但大量数据集的发布受到了许多科学家的热烈欢迎。因为他们可以利用这些预测来开发潜在的新疟疾疫苗,提高对帕金森病的了解,研究如何保护蜜蜂的健康,深入了解人类进化等。

自 AlphaFold 在 2021 年的发布以来,已有超过 50 万名科学家访问了 AlphaFold 的数据库。一些研究人员利用这些预测来辅助他们更接近于完成一个巨大的生物学谜题:核孔复合体

一个全新的宇宙

核孔。(图 /S. MOSALAGANTI ET AL/SCIENCE 2022)

核孔是允许分子进出细胞核的关键通道。没有核孔,细胞就不能正常工作。相对来说,每个核孔都很大,由大约 1000 个约 30 种左右不同的蛋白质组成。研究人员此前已经成功地确认了其中 30% 的蛋白质。

在 6 月 10 日发表于《科学》杂志上的报告称,通过将实验结果与用 AlphaFold 预测的结果相结合来了解每一个蛋白质是如何组合在一起的之后,这个谜题现在几乎完成了 60%。

如今,AlphaFold 可以仅凭氨基酸序列就能准确预测蛋白质的形状。换句话说,现在的 AlphaFold 基本上已经解决了如何折叠单个蛋白质的问题。今年,CASP 的组织者要求参赛者进行的挑战是:预测 RNA 分子的结构,建立蛋白质之间以及蛋白质与其他分子之间相互作用的模型。对于这类任务,深度学习的人工智能方法看起来很有前景,但还没有完全实现。

人工智能的不足之处

AlphaFold 为研究人员提供了一项无比强大的工具,使他们能用 AlphaFold 的蛋白质预测来更好地理解实验数据。但与此同时,也有越来越多的科学家开始呼吁,研究人员不能将人工智能的预测奉为真理,不应该觉得有了人工智能就不需要做实验来确定结构了,也不应该把这些预测的结构完全视作蛋白质的真实形状。因为错误的预测仍有可能存在,而且 AlphaFold 对不同蛋白质的预测的准确性也不尽相同。

此外,AlphaFold 还需要具有能够模拟蛋白质之间的相互作用的能力。因为大多数蛋白质都不是孤立运作的,它们会与细胞中的其他蛋白质或其他分子一起工作。但是,当 AlphaFold 在预测蛋白质相互作用时,对两种蛋白质的形状如何变化的准确性远远不及它对大量单一蛋白质的精确预测。

一个全新的宇宙

AlphaFold 预测的置信水平对每种蛋白质都有所不同,预测结构上的深蓝色和浅蓝色区域意味着算法相对确定,不太确定的预测用黄色和橙色表示。(图 /DeepMind)

不仅如此,AlphaFold 还可能存在 " 过于死板 " 的问题,它无法带来动态图景。静态的结构并不能告诉我们蛋白质是如何工作的,即使是结构明确的单个蛋白质,也不会在形态上保持不变。例如酶在引导化学反应时,就会发生微小的形状变化,如果让 AlphaFold 预测一种酶的结构,它所显示的会是一个固定的图像,这个图像可能与科学家通过 X 射线晶体学确定的非常相似,但它显示不了任何微小的变化,这样一来,研究人员就无法从中了解这些蛋白质在与其他蛋白质发生怎样的相互作用。

因此,在现阶段来说,实验对于理解蛋白质是如何折叠的仍然至关重要。

一场革命正在酝酿中

不过,科学家也不必对此过于悲观。或许对于那些 AlphaFold 能够很好地预测的蛋白质类型上,我们的确不需要投入大量的实验资源,这样能有助于结构生物学家对时间和金钱的投入进行管理。

AlphaFold 还在努力研究一些具有挑战的蛋白质,这都是需要耗费大量资金的领域。也许如果能为那些具有挑战性的蛋白质生成更多实验数据,就可以用它们重新训练一个人工智能系统,从而做出更好的预测。

现在,已经有研究人员在对 AlphaFold 进行逆向工程,制作了一个名为 OpenFold 的版本,研究人员可以训练它来解决其他问题,比如那些艰难但重要的蛋白质复合体。

人类基因组计划产生的大量 DNA 使广泛的生物学发现成为可能,并开辟了新的研究领域。掌握 2 亿个蛋白质的结构信息同样可能是革命性的。在未来,我们将会感谢 AlphaFold 以及和它相似的那些人工智能伙伴,来帮我们解决那些我们甚至不知道可能会遇到的问题。

原文地址:http://www.myzaker.com/article/634c2ec98e9f09068a2c297d

版权声明:虚像 发表于 2022年10月17日 am7:36。
转载请注明:一个全新的宇宙 | 快导航网

相关文章