p平台,ppi 靶点图

  

  编辑|杉杉萝卜皮   

  

  3月23日,百度深圳研发自然语言处理部技术总监何景洲;d中心和propeller PaddleHelix生物计算平台负责人,发表主题演讲《飞桨螺旋桨 PaddleHelix 赋能生物医药:AI技术在药物研发领域的探索和应用》。演讲中分享了AI在生物医药行业面临的挑战和思考以及对生物医药行业的帮助,并系统介绍了基于预训练技术的propeller PaddleHelix的进展:复合表征模型GEM和蛋白质PPI。   

  

  何景洲指出,AI在药物研发方面潜力巨大。预训练技术可以有效利用生物领域的海量未标记数据,通过自监督学习和多任务学习的融合,增强模型的泛化能力。同时,在模型中引入了分子的几何构象信息来表征模型,可以大大提高药物筛选的效率,降低药物研发的门槛。   

  

     

  

  演讲视频回顾(点击“阅读原文”观看):https://www.bilibili.com/video/BV1QY4y1i7r2? SPM _ id _ from=333 . 999 . 0 . 0   

  

  为什么以下周静在《机器之心》AI技术年会上的演讲被《机器之心》编辑整理而不改初衷:   

  

  1、生物医药行业面临的挑战与思考   

  

  过去几十年,全球生物医药规模持续增长,但投入产出比持续下降。一方面,新药研发成本不断上升,效率不断下降,十亿美元能生产的新药数量大幅下降;另一方面,全球医药市场的规模正在迅速扩大。预计到2024年医药市场规模将达到11.1万亿。在这样的矛盾中,可以看到AI技术可以用来加速药物研发的效率,提高其效果,降低其成本,这是非常有价值的。   

  

     

  

  为了找到药物设计可能的候选化合物,医学需要经过早期药物研发、临床前、临床研究和FDA批准,最终找到合适的药物。过程中的每一步都有非常高的失败风险和很高的投资要求。在传统的方法中,需要通过实验或计算机模拟技术来筛选化合物,耗时长,成本高。近年来,越来越多的人开始考虑使用机器学习的方法来加快这一过程,提高药物研发的效率。   

  

     

  

  将机器学习技术应用于生物制药领域仍面临诸多挑战。我总结了三点:   

  

  一是生物数据获取成本高,数量和质量不平衡。机器学习算法往往需要大量数据进行模型训练。在生物计算领域,数据获取的成本非常高。比如,要得到一组有价值的数据,要花上几千块钱才能得到一个组学数据。同时,我们也发现生物领域存在大量的未标记数据,比如化合物的未标记数据量。在700米处,蛋白质的未标记数据大于200米。高质量的标记数据非常缺乏。例如,在药物-靶标亲和力预测的任务中,匹配每个靶标的标记数据量小于1000。比如ADMET药性预测任务中,标注的样本数据在100k以内。在这些数据中,真正高质量的标注数据少之又少。如何利用大量未标记的数据获取有价值的信息,是我们首先要解决的问题。   

  

  第二,药物研发的任务众多且复杂,对模型的泛化能力要求很高。生物学领域的任务通常是复杂的。例如,在药物发现的过程中,每个目标都有其特殊的问题。如果把每个目标看成一个任务类别,那么目标的数量就有上万个,可以形成很多任务。例如,在预测药性的任务中,有几十种任务。如果用一个模型在几十个任务上实现SOTA效应,也对模型提出了更高的要求。   

  

  第三,生物计算的领域知识需要模型能力。如果单纯把数据和AI场模型拿来应用到药物研发的相关任务中,会有一定的收益,但离实用化还有一段距离。事实上,我们真正需要解决的是如何更好地将生物计算中的领域知识转移到模型中并加以利用。比如分析化合物时,化合物的分子中存在异构体,即拓扑结构相同,但空间构象可能完全不同。众所周知,化合物的性质和功能与其结构密切相关,因此如何更好地表征结构是我们需要思考的问题。比如蛋白质分析,如果不考虑蛋白质序列的MSA信息,直接对序列建模,预测其结构,结果赶不上实验精度。这些领域知识的应用也对AI如何发挥更大的作用提出了更高的要求和挑战。   

  

  如何解决这些问题?我们想到用预训练技术整合自我监控和多任务学习,同时考虑生物领域研究对象的特点,从而构建深度学习模型。   

  

  为什么会想到使用预训练技术?   

  

  首先,生物计算中的主要研究对象,无论是化合物、蛋白质、DNA还是RNA,通常都可以用一个一阶序列来表示,类似于一个文本串。化合物的分子图也类似于图网络,非常类似于NLP、CV等领域的一些任务。   

  

  其次,预训练技术在NLP、CV、跨模态等AI领域取得了重大突破。而且预训练技术非常适合生物领域中无监督数据多监督数据少的情况,使我们自然而   

然的想到,是不是可以结合预训练技术,迁移到生物计算领域,结合生物计算领域的特性,做生物计算领域的底层大模型。

  

  

可能有些同学对预训练技术不是那么熟悉,我用一点时间,大概介绍一下。

  

预训练技术其实是一种新的AI研发范式,它把之前分任务进行训练、预测的过程统一为了基于无监督或者自监督大规模数据训练,成功应用到AI各个领域当中,并在自然语言处理、CV、跨模态领域当中,都取得了重大突破。

  

举一个例子,在NLP领域当中,过去这一两年像Bert或者GPT3都是在NLP领域取得很大进展的一些模型。比如百度去年也正式发布了ERNIE3.0 Titan,全球首发知识增强的千亿级别的语言模型,它在能够在代表NLP领域当前技术进展的榜单上,取得非常领先的位置,而且能够在很多理解任务上,超过人类水平,取得了非常大的进展。类似这些进展也体现在视觉和跨模态领域上,比如我们能够做一些视觉分类的任务,或者基于文本到图像类生成,都能达到以假乱真甚至超越人类惊讶的水平。这些技术也给我们很大的信心。

  

基于此,我们提出了生物计算预训练大模型的方法,将自监督和多任务学习进行融合,同时考虑到生物领域研究对象的特性,开展这样一套预训练模型的技术。

  

针对我们处理的对象,不管是蛋白、化合物、DNA、RNA,首先利用海量无标注数据进行自监督学习,形成预训练模型,再针对任务多样化的特点,采用多任务学习的方式,增强模型的泛化能力。同时考虑到分子结构特性,进行相应的模型研究和设计,使得预训练技术在生物计算领域中取得比较好的效果。

  

  

2、基于预训练技术,螺旋桨PaddleHelix取得的进展

  

谈到化合物表征模型GEM,它是基于几何结构的化合物表征,多任务融合多种自监督和监督的预训练模型。这个工作发表在今年2月份的《nature machine intelligence》杂志上。GEM模型充分考虑化合物的三维几何构象,同时构建两个图网络,在14个benchmarks上效果达到业界最优。GEM的主要技术创新点在于,采用了基于空间结构的图神经网络的建模,同时在多个几何级别的自监督学习任务上进行了设计和创新。

  

业界之前的预训练方法没有考虑化合物的三维空间结构,而空间结构对于化合物性质至关重要。在化合物预训练工作之前,大多数化合物的表征不管是基于化学式的,或者是图结构的建模,其实都是基于原子或者对化学键的建模和分析,采用了一些对节点或者原子的掩码或者化学键的掩码等等,加上子图对比学习等等,这些方法取得了一些进展,但是都忽略了一个非常重要的三维动态空间结构的刻画。

  

我们知道化合物的化学特性跟它的几何结构非常相关,存在同分异构体,同时存在动态过程中的一些旋转和运动的特征,化合物不同的原子和化学键之间特征都会影响化合物的性质,如果忽略会对化合物表征造成比较大的损失。

  

  

GEM模型做了几方面创新:一方面引入双图的基于几何空间结构的图神经网络,一个是化学键和原子的图,这是传统的图结构和网络当中常用的建模模式;另一个是针对化学键和键角做了建模,对每两个原子之间的化学键作为一个结点进行建模,在边上存储的是化学键之间的键角的关系,这样共同决定了化学键的3D结构,从而有了更精准建模的能力。同时,我们设计了一系列自监督学习任务,使得模型具备自动推演化合物空间结构的能力,以分布的形式学习化合物的动态过程,这使得我们能够做到业界首个利用空间结构信息的预训练工作。

  

  

GEM 结果说明,在14个化合物属性的基准数据集中取得了最佳表现,例如:在毒性相关的数据集(tox21、toxcast)和HIV(艾滋病)病毒数据集上,预测结果远优于其他baseline模型。回归任务和空间构象更相关,提升更显著8.8%。在自监督学习方法上的消融实验也证明了基于空间结构的自监督学习方法的有效性。

  

利用GEM,螺旋桨在药物研发的多个任务中,都取得了不错的收益。在分子对接和亲和力预测任务上,我们的工作被KDD2021和BIBM 2021接收。在ADMET成药性预测任务上,效果领先竞品4%+,并已完成商业化订单交付,在实际合作管线中落地。

  

利用GEM作为底层支持,构建药物筛选pipeline,我们帮助合作伙伴,在一个与自身免疫性疾病相关的first in class的靶点上,筛选到活性在微摩尔级别的苗头化合物。后续将通过分子生成技术,持续改造推进苗头化合物,到先导化合物的阶段。

  

以上介绍了小分子化合物表征模型GEM的工作。下面来讲讲蛋白方面的工作进展。

  

  

蛋白质建模技术不详细介绍背景。理论上来讲,通过蛋白的一级序列可以直接获得它的空间结构,而空间结构决定了蛋白质的功能。蛋白的表示上,现在的技术方案,通常会通过一级序列,同源序列,也就是MSA的信息,构建蛋白建模技术,来表示蛋白的三维空间结构。

  

  

前人有很多这方面的工作,例如通过Transformer/ LSTM的模型,对蛋白的一级序列进行自监督学习,构建基于sequence的蛋白表征模型。又比如,MSA- Transformer的工作,通过引入MSA的信息,用同源序列做自监督学习,构建蛋白表征模型。

  

我们在飞桨螺旋桨PaddleHelix当中也做了相关工作,我们主要是借鉴AlphaFold2的组合多轨表征,将蛋白质一级序列的信息、MSA的信息,包括模板 / 接触图的信息引入进来,完整地构建了蛋白质结构预测的过程。

  

近期,我们基于飞桨框架,联合国内多家超算中心,在国产的软硬件集群上,完整适配并跑通对齐AlphaFold2的训练和推理过程,千万级别的蛋白在initial training上,千卡集群的训练时间从AF2的7天,压缩到2.6天。相关训练代码和推理代码将于3月底在paddlehelix开源。

  

通过对蛋白质建模,来学习有效的表征,对预测PPI至关重要。PPI问题和蛋白的结构和功能密切相关,单独使用蛋白序列很难描述蛋白的结构和功能,螺旋桨创新性的提出,通过构建多模态的蛋白预训练技术,应用在PPI任务上。

  

螺旋桨PaddleHelix 近期也开发了蛋白PPI表征模型S2F。这个模型技术创新点在于,组合了蛋白序列(Sequence)、蛋白结构(Structure)和蛋白功能(Function)的多模态信息,使用重原子的点云的拓扑复合物来编码蛋白结构特征,再加上学习骨架的结构信息和侧链的结构信息等,使得我们的模型在蛋白-蛋白相互作用问题上获得很好的表征效果。

  

  

如图是整个模型设计的思想,左下角用绿色表示序列的特征,橙色是结构相关的特征,功能用蓝色表示。我们采用多流的多模态转化器模型分别转化了序列、结构、功能对齐和排序的任务,针对遮蔽掉的序列建模和功能建模等几种方式构建了多任务学习的模块。再用预结构提取的拓扑结构分析做整个模型的建模,当然过程当中我们也用了一些正向数据增强和负向采样的工作,优化整个模型的效果。

  

从模型结果来看,在跨物种PPI、抗体-抗原亲和力预测、SARS-CoV-2的抗体中和预测,以及突变驱动的蛋白结合亲和力变化预测上,取得SOTA结果,相比于其他蛋白质表示模型,我们的方法有5%-10%的提升。

  

S2F在药物研发领域同样起到作用。比如我们利用多模态的蛋白预训练技术,预测新冠变异病毒奥密克戎的线性抗原表位,以帮助研发变异毒株奥密克戎的疫苗;同时对潜在的新的变异可以快速应对,快速开发疫苗。后续将与合作伙伴在罕见病、癌症、免疫与代谢等疾病领域开创创新药物研发方案。

  

3、螺旋桨PaddleHelix生物计算平台

  

  

不管是小分子化合物领域,还是蛋白领域的相关工作,都通过螺旋桨这样一个工具和开源平台对外提供服务。螺旋桨PaddleHelix,基于飞桨深度学习框架,构建了一整套开源服务平台和计算平台的能力。底层我们提供生物计算领域的预训练模型,面向应用场景的相关任务,例如虚拟筛选、分子生成、药物性质预测等,同时也提供了RNA二级结构预测、药物协同性预测、精准医疗相关的模型工具。另外,考虑到算力问题,我们也提供搭载了完整能力的服务平台,真正全面赋能药物研发、疫苗设计和精准医疗方面的研究者和合作伙伴。

  

螺旋桨PaddleHelix 工具与计算平台核心能力已经在GitHub开源,同时也在PaddleHelix计算平台上线,包括药物虚拟筛选、ADMET成药性预测、DTI 药物靶点亲和力预测、PPI蛋白-蛋白相互作用、蛋白结构预测等9大能力模块,为生物医药行业内的研究人员提供相关服务。

  

我的分享到这里,谢谢各位!

  

开源平台:https://github.com/PaddlePaddle/PaddleHelix

  

计算平台:https://paddlehelix.baidu.com/


相关文章