当前位置:首页 > 投融资 > 产业 > 科技前沿 > 正文

DeepMind团队预测多种新冠病毒蛋白结构 助力疫苗研发

来源:澎湃新闻网 发布时间: 2020-03-07 07:44:44 编辑:Emily

导读:作为全球范围内最顶级,也是最受关注的人工智能公司,DeepMind在这次全球爆发的疫情里做了什么,一直备受外界关注。

作为全球范围内最顶级,也是最受关注的人工智能公司,DeepMind在这次全球爆发的疫情里做了什么,一直备受外界关注。当地时间3月5日,DeepMind正式交出答卷,在官方博客中表示,其用AlphaFold生成了六种可能与新冠病毒有关的蛋白质结构预测结果,而且已经开放下载。

这一结果可能对新冠病毒疫苗研发等工作起到推动作用。

DeepMind团队预测多种新冠病毒蛋白结构 助力疫苗研发

AlphaFold预测的一种蛋白结构

说到AlphaFold,可能大家都不陌生,它由曾开发出阿尔法狗的研究团队研发,是Alpha家族的新成员。在2018年12月一问世就引起科学界关注。它可以仅根据基因代码预测蛋白质的3D结构。在参加2018年全球蛋白质结构预测竞赛(CASP)中,力压其他97个参赛者,获得第一,成绩还是第二名的8倍还要多。

跳过同行评审,直接公开预测结果

DeepMind表示,为了应对新冠病毒爆发带来的疫情,科学界对于这个病毒家族的特征做了大量的基础研究。最前沿的实验室开放了病毒基因组数据,这使研究人员能够快速开发针对病毒的测试疗法。其他实验室也共享了病毒蛋白的确定和预测结构,甚至还共享了流行病学数据。

对于AlphaFold而言,从这个系统问世以来,就一直致力于在没有相似蛋白质结构可用的情况下,准确预测蛋白质结构。通过不断改进方法,DeepMind希望提供最有用的预测,也希望此次发布的结果有助于科研界增进对病毒机制的了解,为新冠病毒的治疗方案开发提供一个假设生成平台。

通常,DeepMind会在研究成果经过同行评审并正式发表在期刊之后,再进行官方发布。 这一次跳过常规步骤,先行公开结构预测结果,DeepMind称,也是基于疫情的严峻形势和时间敏感性做出的决定。

因此,DeepMind指出,他们的结构预测系统仍在开发中,尽管确信该系统比以前的CASP13系统更准确,但无法确定所提供结构的准确性。

AlphaFold如何预测新冠病毒蛋白质结构

DeepMind团队介绍,AlphaFold使用神经网络预测物理特性,这些神经网络经过训练可以从蛋白质的基因序列中预测蛋白质的特性,比如氨基酸对之间的距离和,以及连接这些氨基酸的化学键之间的角度。接着,AlphaFold调整结构以找到最高效的氨基酸排布。该程序花了两周时间预测第一个蛋白质结构,但现在只需几个小时就能将其预测出来。

DeepMind团队训练了一个神经网络来预测蛋白质中每对残基之间的距离的单独分布。然后将这些概率组合成一个分数,以评估所设想的蛋白质结构有多准确。此外还训练了一个单独的神经网络,汇总了所有氨基酸之间的距离和,来估计设想的蛋白质结构与正确答案的接近程度。

DeepMind团队预测多种新冠病毒蛋白结构 助力疫苗研发

DeepMind团队设计的第一种方法

利用这些评估功能,AlphaFold能够检索所有的蛋白质图景,从而找到与研究设想相匹配的结构。DeepMind团队设计的第一种方法建立在结构生物学常用的技术上,对于蛋白质结构中的某一片段反复用新的蛋白质片段替换。这样训练出来的神经网络就可以发明新的蛋白质片段,从而不断提高设想的蛋白质结构的得分。

第二种方法就是通过梯度下降优化得分。这是一种在机器学习中常用的数学技术,通过进行微小而渐进的改进一步步使结构实现高度精确。这套技术应用于对整个蛋白质链的预测,而不是用于蛋白质结构组装之前单独折叠的碎片,因此从技术上来讲降低了整个预测过程的复杂性。

为什么人工智能可以在生物领域发挥作用

蛋白质是一切生命的物质基础,预测其3D结构是生物学中的重要挑战,这将影响人们对疾病理解和药物发现。

DeepMind团队预测多种新冠病毒蛋白结构 助力疫苗研发

利用梯度下降方法预测结构目标T1008

蛋白质基本的组成单位是氨基酸。整个地球生命系统中仅有的20多种氨基酸,构成了数万至数亿种不同的蛋白质。蛋白质的种类很多,性质、功能各异。蛋白质的三维结构取决于它所含氨基酸的数量和类型,结构也决定了蛋白质在体内的作用。比如,构成免疫系统的抗体蛋白质是“Y形”的,类似于一个钩子。通过锁定病毒和细菌,抗体蛋白能够检测和标记引起疾病的微生物,并进行消灭;而胶原蛋白的形状像绳索,其在软骨、韧带、骨骼和皮肤之间传递张力。

此外,蛋白质的折叠包含了很多作用,比如蛋白质四级结构折叠受到大量包括氢键、离子键、疏水作用等非共价相互作用的影响。因此想要从分子水平上了解蛋白质的作用机制,就需要精确测出蛋白质的三维结构。

在过去60年间发展起来的结构生物学,已经采用了包括X射线晶体学、核磁共振、冷冻电镜等技术来解析蛋白质结构。但DeepMind团队认为,这些传统方法都依赖于大量的实验和试错,同时研究每个结构的成本大概需要耗费数万美元。这一耗时又费力的任务,最适合用人工智能解决。加之近几年基因测序成本的快速降低,基因组学领域的数据非常丰富。因此,人工智能已经具备了通过基因组数据进行深度学习从而做出预测的条件。