来源:DeepMind
一个 " 蛋白质宇宙 " 诞生了。2021 年 7 月刚推出之际,AlphaFold 数据库拥有 35 万个蛋白质预测结构,如今这个数据达到了 2.14 亿个,库容翻了 610 倍。
记者 | 孙滔
审校 | clefable
7 月 28 日,DeepMind 公布的这个蛋白质数据库已经囊括了几乎所有地球生物物种,包括动物、植物、细菌、真菌等等,据《自然》官网报道,DeepMind 的合作方、欧洲分子生物学实验室的欧洲生物信息学研究所 (EMBL-EBI)称,在超过 2.14 亿个预测结构中,约 35% 与实验确定的蛋白质结构一样高度准确,另外 45% 的预测结构也到达了很高的可信度,能用于后续多种研究和应用。
从建立之初,这个数据库就是免费开放的,如今已成为科学家的必备工具。据 EMBL-EBI 数据,迄今已有超过 1000 篇科学论文引用了 AlphaFold 数据库,来自 190 个国家的 50 多万名研究人员访问过该数据库,查看了超过 200 万个蛋白质结构。目前,DeepMind 测定的这些蛋白质结构也被整合到其他的公共数据库中,将为数百万研究人员的日常工作提供参考。
相比于 1 年前,AlphaFold 数据库中的蛋白质结构数据量增加了 600 多倍,涵盖了物种也达到了 100 万种(图片来源:DeepMind)
AlphaFold 数据库就是蛋白质结构的 " 谷歌搜索 ",要认识某个蛋白质结构只需在数据库搜索可立即获得结果,这可以让科学家能够集中精力加快实验研究。按照 DeepMind 创始人、首席执行官德米斯 · 哈萨比斯(Demis Hassabis)的看法,这是迄今为止人工智能系统在推进科学发展中做出的最大贡献。他在 DeepMind 的官方博客中称,从抗击疾病到开发疫苗,AlphaFold 已经取得了令人难以置信的进展,而这只是开始。
2 亿个数据有什么用
从科研人员对该数据库的热情就可以想见其对科学研究的价值,仅 DeepMind 在《自然》杂志上发表的 2 篇论文已被引用超过 4000 次。可以说,AlphaFold 实现了 AI 在生命科学领域的雄心。斯克利普斯研究所创始人埃里克 · 托普(Eric Topol)的看法是,AlphaFold 是 AI 在生命科学领域取得的唯一的重大进展,以前确定一个蛋白质的三维结构需要数月或数年,现在只需要几秒钟。
托普说,AlphaFold 已经加速并促成大规模的蛋白质结构被破解,包括核孔复合体的结构," 我们可以期待每天都有更多的生物之谜被揭示 "。事实上,按照哈萨比斯的说法,这个数据库的价值可以覆盖从了解疾病到保护蜜蜂,从解决生物学难题到深入研究生命起源本身,对解决一些重要的问题,例如可持续发展、燃料问题、粮食不安全和被忽视的疾病等,都将产生重大的影响。
该数据库已经在疟疾的治疗中发力了。今年 5 月,牛津大学的生物化学教授马修 · 希金斯(Matthew Higgins,从事疟疾研究)领导的研究团队宣布,他们已经使用 AlphaFold 帮助确定了一种来自疟原虫的关键蛋白质的结构,并找出能阻止疟原虫传播的抗体可能结合的位置。
希金斯在接受外媒采访时称,他们之前采用蛋白质晶体学技术来计算这种分子结构,但多年来一直没有取得突破,因这种蛋白质的结构动态性强并且会到处移动,而在将 AlphaFold 预测的结构模型与实验数据结合后,他们顺利地解决了这一难题。他们准备将最新的研究成功用于设计优化的疫苗,以诱导感染者产生最有效的、能阻断疟疾传播的抗体。
目前借助于 AlphaFold,已经发表的蛋白质结构(图片来源:DeepMind)
而环境研究,也会因为这一数据库而受益。据外媒,英国朴茨茅斯大学的结构生物学教授兼酶创新中心(CEI)的主任约翰 · 麦吉汉(John McGeehan)正在使用 AlphaFold 来识别自然界中的酶的结构,以期找到能消化和回收塑料的酶。他们已经发现了从未见过的三维的蛋白质结构具有分解塑料的功能。
DeepMind 表示,该公司在与其他机构和组织合作时,会优先考虑最富社会效益的项目。他们与被忽略疾病药物研发组织(DNDI)合作,帮助推进利什曼原虫病(Leishmaniasis)、南美锥虫病等严重影响贫困地区的疾病的治疗,以及对世界卫生组织(WHO)列为优先研究项目中的关键蛋白质结构进行预测,包括麻风病和血吸虫病等。
从量变到质变
如果把 AlphaFold 看作一个人,它大概会是成长飞速的天才少年。
DeepMind 隶属于谷歌的母公司 Alphabet,击败了传奇围棋选手李世石的 AlphaGo 亦为其旗下产品。2016 年,击败李世石后不久,DeepMind 成立了针对 " 蛋白质折叠问题 " 的研究团队。到 2018 年,DeepMind 首次公开了 AlphaFold 的预测结果,其成果发表在《自然》上。
2020 年 11 月 30 日,AlphaFold2 以巨大优势在国际蛋白质结构预测竞赛(CASP)中一举夺魁,其预测的蛋白质结构已达到原子精度,可与实验测得的结构相媲美。要知道,多年来,科学家只能通过核磁共振、X 射线和冷冻电镜技术来确定蛋白质的结构。他们需要为了一个蛋白质结构反复试验,其间花费了数年时间和巨额费用。2005 年,《科学》杂志在创刊 125 周年之际将预测蛋白质结构列为 125 个最具挑战性的科学问题之一。因此,AlphaFold 的这次胜利被视为解决了 50 年来生物学领域的一个重大挑战。
在中等难度的蛋白结构预测中,AlphaFold 连续两年夺冠,今年更是取得了将近 90 分的 GDT 成绩。来源:DeepMind
到了 2021 年,DeepMind 决定把 AlphaFold 的力量交到世界手中,于是在当年的 7 月 15 日在《自然》上开源了 AlphaFold 的代码以及 60 页的详细补充信息。
就在 1 周后,DeepMind 在《自然》上又发表了对整个人类蛋白质组的结构预测结果,且使当时已知的高置信度蛋白质结构的数量增加了一倍。与此同时,DeepMind 还联合 EMBL-EBI 推出了 AlphaFold 数据库,其中囊括了人类蛋白质组以及另外 20 种模式生物体内超过 35 万个蛋白质结构。
而又于 11 月,DeepMind 又更新了 AlphaFold2 的源代码,以解读多链蛋白质复合物,这显著提高了预测蛋白质之间相互作用的准确性。2022 年,AlphaFold 数据库迎来了库容的数量级增长。这个 " 蛋白质宇宙 " 就拥有了独一无二的强大力量。
更高的期待
当然这个数据库并非万能,科学家有更高的期待。
伦敦帝国理工学院教授基思 · 威尔逊(Keith Willison)称,AlphaFold 在蛋白质折叠方面仍有问题需要解决。AlphaFold 只能基于已知实验数据进行预测,但对于无法折叠成稳定 3D 结构的蛋白质就无能为力了,这些蛋白质通常具有不稳定和不可预测的折叠模式。
伊利诺伊大学厄巴纳 - 香槟分校计算生物学家彭健称,AlphaFold 可以帮助科学家重新评估以前的研究,以更好地了解疾病是如何发生的。不过他提示说,对于具有相关信息但认识不足的罕见蛋白质,AlphaFold 的预测质量也可能不那么高了。
哥伦比亚大学系统生物学家穆罕默德 · 库莱希(Mohammed AlQuraishi)在接受据《麻省理工科技评论》采访时称,许多蛋白质会受基因突变和自然等位基因的影响,但它们的结构会如何改变,这个数据库不会解决。他说," 希望能准确模拟蛋白质突变体的工具很快会出现 "。
库莱希等人参与创办了非营利性人工智能研究联盟 OpenFold,他们在 AlphaFold 数据库基础上做了进一步改造。2022 年 6 月 28 日,OpenFold 发布了其开发的第一个能预测蛋白质结构的 AI 模型,该模型是基于谷歌 DeepMind 和华盛顿大学蛋白质设计研究所的工作而开发的。OpenFold 内部评价是,该模型比 AlphaFold2 平均精度更高,运行时间更快。
不过,山东大学数学与交叉科学研究中心教授杨建益(从事蛋白质结构预测)告诉《环球科学》,AlphaFold2 已经很好用了,部署也很简单,对硬件要求并不高,有图形处理器(GPU)就够,很多公司和高校都在用,速度还很快。他说," 我个人并不太看好 OpenFold,复现 AlphaFold2 的训练过程意义并不大,我自己也测试过 OpenFold,它的性能并不如 AlphaFold2。"
封面图为蛋白质 Pfs48/45,它是疟原虫体内的一种关键蛋白质。科学家利用 AlphaFold 破解了其三维结构,推动了相关抗体的研发。来源:DeepMind
原文地址:http://www.myzaker.com/article/62e3f76a8e9f0938f45fb30d