Meta 的人工智能研究人员表示,他们已经开发出迄今为止最大的蛋白质折叠模型,并且能够预测超过 6 亿种蛋白质的结构。
团队 胸部 该模型基于 150 亿个变体的 ESM-2 适配器及其蛋白质结构预测数据库,称为 Atlas宏基因组ESM, 周二。 该数据库包括科学家尚未观察到的蛋白质异构体。
蛋白质是一种复杂的生物分子,含有多达 20 种氨基酸,它们在生物体内发挥着各种生物功能。 至关重要的是,它们被折叠成复杂的 3D 结构,它们的形状对它们的功能至关重要; 了解它的外观有助于科学家了解它的工作原理,并从中帮助他们找到模仿、改变或抵消这种行为的方法。
不幸的是,您不能只考虑氨基酸组成并立即研究最终结构。 您可以运行模拟或实验来找出答案,但这需要很长时间。 如今,您可以为蛋白质的化学结构提供经过适当训练的机器学习软件,该模型将相对而言快速准确地预测结构。
事实上,DeepMind 的 AlphaFold 模型已经展示了很多, 双赢 2020年CASP国际双年蛋白质折叠大赛。由于有氨基酸的输入链,AlphaFold等机器学习软件可以生成相应的3D结构。
从那时起,总部位于伦敦的 DeepMind 的研究人员改进了他们的系统, 骄傲 科学界已知超过 2 亿种蛋白质的结构。 Meta 最新的 ESM 系统更进一步,在对数百万个蛋白质序列进行训练后预测数亿。
Meta 团队的初步论文 – Lin 等人 – 解释了 ESM-2 的设计 可以在这里找到. 有趣的是,根据 研究人员,该系统实际上是一个大型语言模型,旨在“直接从蛋白质序列中学习进化模式并生成准确的端到端结构预测”。 例如,AlphaFold 不是一种模型语言,它使用了不同的方法。
正如 Boffin 在他们的论文中指出的那样,这些大型语言模型不仅可以用于处理人类语言:“具有数百到数千亿参数的现代语言模型开发了诸如低速语言翻译、逻辑推理和数学等能力。 . 解决问题 所有没有明确的监督。
“这些观察结果提高了在蛋白质序列上训练的语言模型出现平行外观的可能性。”
结果是 ESM-2,尽管已经教授了一种语言模型来从代表氨基酸的文本字符串中预测蛋白质的物理形状。
ESM-2 是同类模型中最大的模型,显然比类似系统更快地预测结构; 根据 Meta 的说法,它比最新的、以前的系统(如 AlphaFold 或 Rosetta)快 60 倍,后者可能需要十多分钟才能生成输出。
该模型能够创建 ESM 的宏基因组图谱,并预测了超过 6 亿个结构 MGnify90 在 2000 个 GPU 上运行仅两周的蛋白质数据库。 在单个 Nvidia V100 GPU 上,模拟 384 个氨基酸的蛋白质仅需 14.2 秒。 从研究论文中可以看出,Meta 表示其系统在准确性方面大部分但不完全与 AlphaFold 相匹配,尽管它的速度是关键,使其能够预测更多的蛋白质。
“使用当前最先进的计算工具,在实际时间范围内预测数亿条蛋白质链的结构可能需要数年时间,即使使用主要研究机构的资源也是如此。要在宏基因组水平上进行预测,预测速度的突破至关重要,”Facebook 所有者说。
Meta 希望 ESM-2 和 ESM 宏基因组图谱将通过帮助科学家研究进化史或应对疾病和气候变化来推动科学发展。 “为了进一步扩展这项工作,我们正在研究如何使用语言模型来设计新的蛋白质,并有助于解决健康、疾病和环境方面的挑战,”皮斯总结道。 ®
More Stories
《东京恶习》制片人详述日本走向全球制作中心之路
康拉德·科尔曼仅使用可再生能源再次改变了世界
新款 MacBook Pro 为苹果一周的重大新闻画上了句号