7月31日电 英国“深层思维”公司日前宣布,该公司开发的人工智能程序“阿尔法折叠”已预测出约100万个物种的超过2亿种蛋白质的结构,涵盖科学界已编录的几乎每一种蛋白质。
据介绍,这些信息将上传至可公开访问的“阿尔法折叠蛋白质结构数据库”。该数据库由“深层思维”公司和欧洲生物信息学研究所合作开发,去年7月上线时已包含98.5%的人类蛋白质结构。
蛋白质的三维结构决定了它在细胞中的功能。明确蛋白质的结构信息,在药物研发等领域十分重要。传统上,研究人员使用X射线晶体学等手段测定蛋白质结构,耗时费力且花销不菲,却常无法获得所需结果。
今年夏天,用人工智能预测蛋白质结构取得里程碑式进展。谷歌的AlphaFold2和华盛顿大学的RoseTTAFold工具,成功根据氨基酸序列预测了生命基本分子——蛋白质的三维结构。利用实验室手段可能需要数年的研究才能解析一个蛋白质结构,利用计算结构模型最快只需10分钟。
预测蛋白质结构为什么重要?深势科技创始人兼首席科学家张林峰解释说,蛋白质是组成生命体的重要物质基础。不同的蛋白质通过折叠形成不同的三维结构,执行多种多样的生理功能。癌症、痴呆等几乎所有疾病,都与细胞内蛋白质结构变化相关,如果能够掌握蛋白质结构的变化,将对疾病的预防、治疗等带来重要影响。
从氨基酸序列到对应蛋白质三维结构的预测问题被认为是生物学领域最具有挑战性的问题之一。
在过去几十年的研究中,科学家们为探测蛋白质结构发展出三大实验手段:X射线晶体学、核磁共振和冷冻电镜。但实验方法成本高、周期长。目前人类已知有数十亿氨基酸序列,但还原出结构的只有十几万。生物学发展因此颇受掣肘。
AI的发展为这一问题带来了新的可能。7月22日,谷歌旗下Deepmind公司在《自然》杂志发表文章称,基于深度学习神经网络的AlphaFold2已经预测出了35万种蛋白质结构,涵盖了98.5%的人类蛋白质组以及20种生物的蛋白质,并开源了它的数据库。这一结果也标志着蛋白质单体结构问题在一定程度上得到解决。
中国公司已进入这一领域。张林峰说,AlphaFold2公布了推理代码,但并未公布训练代码。意味着公布了产品,但未公布其“流水线”。而训练代码是行业中的真正壁垒。深势科技通过“投喂”数据,复现了整个训练过程,并开源其训练代码。
另外,单一蛋白质的预测只是起点,深势科技希望通过分子动力学等物理模型,把蛋白质-蛋白质相互作用,蛋白质和药物分子之间的相互作用通过AI预测出来,这对下一步药物设计和生命科学发展都有重大意义。
深势科技创始人兼CEO孙伟杰表示,深势科技对训练代码进行了开源,这意味着使用者能够更方便地训练和使用模型,降低了使用者的门槛。
目前相应解决方案已集成至深势科技自主研发的药物设计平台Hermite,供广大用户测试使用。未来,AI预测蛋白质技术可以在几个场景落地,如新药研发、微尺度工业设计等。
孙伟杰介绍,通常人们服用的药物大多是小分子化学药,它们的作用靶点大部分在蛋白质上。研发这类药物的一个重要前提,是解析蛋白质结构。只有绘制出人体内某些蛋白质的“三维地图”,才能找到药物靶点,完成“精准制导”。
深势科技致力于从更底层,用AI+物理模型+高性能计算的范式,去求解药物设计里很多通用问题。
如何验证AI预测是否准确?孙伟杰说,AI预测与冷冻电镜是互为协同关系,一部分AI预测的结果要通过冷冻电镜来验证,同时, AI数据集的不断增加,模型不断的训练和演化,以及实验手段和模拟手段的结合,是一个共同发展和相辅相成的过程。AI无法代替科学家的智慧,但能够提升科学家的效率。
据了解,从上世纪六十年代,一些国际大型药企就开始用计算方法辅助药物研发,现在介入的程度越来越深,在药物设计的各个主要环节都可以看到计算和AI的身影,计算对实验的渗透率也在逐渐提高。
“阿尔法折叠”通过学习实验测定出的蛋白质结构信息,来预测其他蛋白质的三维结构,其预测准确度相当高。欧洲生物信息学研究所的数据显示,有35%的预测是高度准确的,可媲美实验测定结果;另有45%的预测足以在很多场景使用。
欧洲生物信息学研究所说,“阿尔法折叠蛋白质结构数据库”上线一年以来,已有全球超过50万名研究人员访问。
X 关闭
小狗学叫的三种结局续写及理由,小狗学叫的三种结局续写这个很多人还不知道,现在让我们一起来看看吧!1、第三种结局:狗跑啊,
cpi指数对股市的影响是什么?CPI是反映居民生活有关的消费品和服务价格水平的变动情况的宏观经济指标,主要用于宏观经济分析决策和国民经济
什么是股票基金?股票基金有哪些?什么叫股票型基金?投资于股票市场的基金股票型基金又称股票基金,是指投资于股票市场的基金。证券基金的
次新股是什么意思?次新股一般是指上市公司发行的股票没有被明显炒作,或上市一年内都没有分红送股的股票。如果投资者想买次新股,可以关注