人工智能革命席卷蛋白质测序

研发家 | 2025-04-06 0

人工智能(AI)蛋白质的研究已经被颠覆,比如它可以帮助研究人员轻松预测蛋白质的3D结构。2024年诺贝尔化学奖获得相关成就。

如今,AI已经深入蛋白质测序,通过氨基酸序列识别蛋白质。与传统方法相比,AI更快,有助于研究人员对以前从未见过的蛋白质进行测序。在医学诊断、环境研究和考古学中,对未知蛋白质进行测序一直是一个常见的挑战。

最近,一项名为InstaNova的蛋白质测序AI发表在《自然-机器智能》的研究中,能够识别伤口中微生物产生的发病蛋白和未知蛋白。

事实上,InstaNova并不是一个例子,在过去的四年里,研究人员已经推出了超过20种蛋白质测序AI。

美国华盛顿大学蛋白质组学AI开发人员Williamiamiam Noble说。

与DNA和RNA相比,蛋白质要复杂得多。大约有20,000个基因组,但是这些基因会产生1000万种不同的蛋白质。

传统上,生物学家通过将蛋白质分解成肽来识别蛋白质。每个肽由5到20个氨基酸组成。研究人员使用质谱仪测量这些短片,并将其重量与数十个数据库中已知的肽重量相匹配,以确认其身份,然后将这些片段组成一个完整的分子。

但是这一传统方法存在一些问题。举例来说,当前数据库中并没有发现高达70%的肽。

“传统的蛋白质组学有点像用搜索引擎搜索。如果不在数据库里,就找不到。”丹麦科技大学蛋白质组学专家Timothyy Patrick Jenkins表示,尤其是随着肽数据库的不断扩展,发现匹配项目所需的计算机时间越来越长。

另一方面,AI不会试图找到匹配的已知肽选线。他们计算了所有可能的肽片段重量,这些片段可能是由长度肽化学装饰产生的。如果有一个片段与实际样本中的肽片段相匹配,它会试图将其组装成总长蛋白质。

为了提高准确性,蛋白质测序AI是在数百万已知肽及其如何组装成已知蛋白质的基础上进行训练的。这使得AI能够学习氨基酸链结合的最常见方法。

Jenkins表示,这种方法类似于大型语言模型,就像ChatGPT在大量文本中训练,学习语法规则一样,蛋白质组学习AI可以学习一种蛋白质“语法”,从而为给定的一组肽提供最可能的序列。

Noble和同事们在2021年推出了Casanovo。它是第一个使用深度神经网络的蛋白质测序AI。Noble团队报告说,在2024年发表的《自然-通信》论文中,AI被证明擅长识别训练数据中没有的新肽序列。此外,Casanovo还擅长识别免疫系统攻击癌症时靶向的细胞表面肽和海水样本中未知的蛋白质。

在使用深度神经网络的基础上,Jenkins和同事们开发的InstaNova引入了扩散模型。AlphaFold等蛋白质结构预测模型也采用了这一策略。

InstaNova和升级型InstanNova在与Casanovo的零距离测试中在9种生物的实验室中,42%的肽被鉴定为蛋白质混合物。

当Jenkins团队将InstaNova应用于实际的蛋白质组学测试时,除了其它结果外,它还从感染的腿部伤口中识别出1225种人血白蛋白独有的肽,是传统方法检索结果的10倍。数据库中没有的新肽有254种。

其它领域的研究人员也在使用蛋白质测序AI。英国剑桥大学蛋白组学研究员Matthewew 最近,Collins正在测试几种蛋白质测序AI工具来分析考古样本的能力。

Collins指出,在大多数情况下,样品中的蛋白质经过长时间的地下化学反应,或者它们来自已经灭绝的动植物,因此在传统的蛋白质肽数据库中不太可能存在,这些AI模型特别适合在混乱的环境中检测蛋白质。

利用AI工具,Collins团队在尼安德特人遗址中发现了兔子蛋白的特点,并在古巴西的盆中发现了鱼肌蛋白的特点。

赞一个

分享:
打开微信扫一扫
0
版权及免责声明:本网站所有文章除标明原创外,均来自网络。登载本文的目的为传播行业信息,内容仅供参考,如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权
招商合作
请您完善以下信息,我们会尽快与您联系!
论文投稿
参加会议
合作办会
期刊合作
论文辅导
科研绘图
论文翻译润色
论文查重
其他
提交
专家招募
个人信息
联系信息
提交
在线客服
商务合作
专家招募
常见问题
手机端
扫描二维码
与学术大咖共探知识边界
出版无忧
投稿无忧
翻译服务
润色服务
自助查重
排版校对
科研绘图