HKUST ( GZ ) Information Hub
喜讯 | 数据科学与分析学域以第一单位发表Nature子刊论文

热烈祝贺数据科学与分析学域以第一单位发表Nature子刊论文《基于层次图学习的蛋白质相互作用预测》!

近日,香港科技大学(广州)数据科学与分析学域李佳老师、香港科技大学化学系黄湧老师作为共同通讯作者的文章《基于层次图学习的蛋白质相互作用预测》入选高质量综合期刊《自然•通讯》Nature Communications),第一作者为数据科学与分析专业博士二年级学生高子琪,第一完成单位为数据科学与分析学域

该工作尝试让机器智能感知蛋白质-蛋白质相互作用(PPI)的天然层次结构并提出层次图学习的PPI建模和预测方法,该方法被验证具有鲁棒且可解释的预测性能。

论文网址:
https://www.nature.com/articles/s41467-023-36736-1
代码网址:
https://github.com/zqgao22/HIGH-PPI

PPI问题的天然形式:双视角相互增益

机器智能的核心目标是模拟研究问题的天然形式并模仿人类对问题的认知方式。对于蛋白质-蛋白质相互作用预测(PPI)任务,由于其拥有层级性的信息展现形式,生物学家倾向于从蛋白质组学和交互作用组学两个视角探究PPI的存在。本文的作者发现,两个研究视角之间是相互受益的,任一视角中的结构信息缺失都将导致机器学习模型的性能损失。

在图1a中展示的PPI实例中,SERPINA1,SERPINA3分别和ELANE蛋白在同一局部位置发生相互作用,然而SERPINA1和SERPINA3却拥有较低的序列相似性,这揭示了蛋白质组学视角中结构信息对PPI推理的重要性。同样地,交互作用组(PPI网络)的结构信息为pairwise learning提供了网络的属性暗示,如社区之间通常不互通,社区内部则倾向于密集交互(图1b)。

图1. 双视图中结构信息对PPI的必要性。
(a)不具备序列相似性的两个蛋白质(SERPINA1, 3)可能和同一蛋白质(ELANE)在几乎相同作用界面发生PPI;
(b)PPI网络重要的结构属性:社区内的密集交互和社区外的微弱连接。

建模PPI的天然结构:层次图学习模型HIGH-PPI

受启发于生物学家对PPI问题的研究方式以及其天然的层次结构,即将氨基酸残基视为节点的蛋白质图(graph)数据在PPI网络(交互组)中则担任节点角色传递信息,本文构造了两个图视角实现信息增益并提出HIGH-PPI(Hierarchical Graph Neural Networks for Protein–Protein Interactions)实现高性能预测。

图2. 用于端到端学习PPI双视图的HIGH-PPI模型

本文构造蛋白内和蛋白外视图并采用BGNN(Bottom GNN)和TGNN(Top GNN)进行端到端学习。具体来说,蛋白内视图以氨基酸残基为节点,依据残基的物理邻接关系构造边,节点属性被定义为和PPI高度相关的化学描述符集合。因此,BGNN 以协同方式整合了蛋白质 3D 结构和残基水平特性的信息。蛋白外视图的节点由蛋白实例担任,边则表示蛋白质之间的相互作用,因此,蛋白质表征信息在TGNN中沿PPI网络传播。在端到端的训练中,HIGH-PPI 的两种视图相互获益并输出成对蛋白质在多种作用类型下的概率:

(1)蛋白内视图为蛋白外视图提供蛋白结构-功能表征,为PPI网络的结构学习提供辅助知识。

(2)蛋白外视图编码的蛋白活跃度和蛋白社区信息为蛋白内视图中的进一步表征优化提供指导。

无需对残基级别数据进行监督学习,HIGH-PPI可以通过计算残基重要性推断给定蛋白质对发生相互作用的关键功能位点。

HIGH-PPI的双视角增益

图3. 蛋白内视图带来增益。
(a)引入3D信息显著提升预测性能;
(b)图结构数据对蛋白结构误差的高容忍度;
(c)图结构数据精确识别蛋白中对接位点;
(d)残基级别属性对不同类别PPI的重要性。

图3a展示了引入蛋白3D结构信息的对于各自backbone的显著提升,保证输入信息相同的前提下,图结构数据相对循环神经网络(RNN)和卷积神经网络(CNN)具有明显优势。此外,图建模可以在拥有和3D CNN相近表现的同时,获得显著的运行效率提升(~80%)。

由于可能难以获取待测蛋白的精确结构信息,探究模型对蛋白结构误差的容忍度也极为重要。可以看出(图3b),即便面对较高的结构扰动(RMSD = 8),采用结构信息进行图建模仍有显著必要性(注:所有基线和HIGH-PPI采用相同的输入信息训练)。

图结构数据的可解释性能亦具有优势,图3c中的实例证明HIGH-PPI可以编码由在序列中不相邻(6,42,43,44号)的残基构成的位点信息。此外,对于不同的相互作用类别,HIGH-PPI给出残基级别的属性重要性分数(图3d),对于个别的重要性得分,本文提供文献证据予以支持(例如TPSA属性对binding类别的高度重要性)。

图4. 蛋白内视图带来增益。
(a)PPI网络节点度,社区属性分别和PPI预测结果的高相关性;
(b)有效的链路预测方法都倾向于高度还原PPI网络的结构属性。

隐式和显式的学习范式对PPI网络结构属性的高度还原通常暗示了优越的链路预测性能。本文采取两种方式进行验证:

(1)图4a对训练至不同阶段的HIGH-PPI进行测试,并统计分类的F1分数表现及其对PPI网络节点度和社区信息的还原情况;

(2)图4b直接统计不同基线方法的PPI预测性能及所预测结果对原网络的属性还原度。

二者皆表明,显式的结构学习范式可以更好还原网络的结构属性,并为PPI预测助益。

图5. HIGH-PPI对物理对接界面和催化位点的预测。
(a)物理对接界面预测;
(b)催化相互作用中的催化位点预测,标红残基拥有催化功能,标黑残基为误判的催化功能残基。

无需监督位点信息,HIGH-PPI可以推理物理对接以及催化作用的功能位点,这表明层次图模型可以获得高质量的可解释蛋白质表征。图5a表明给定binding类型PPI的蛋白质对,HIGH-PPI有能力预测其大致对接界面,经过二值化后,其交并比(IoU)约为60%。图5b评估了HIGH-PPI对引导PPI发生的催化位点的推理。

未来工作畅想

层次结构是无处不在的,所以人类通常倾向于从层次结构中学习知识和认识世界。鉴于AI辅助的药物发现场景中具有丰富的层次信息,本文倡导采用多视图策略加深机器对单一视图的理解。在该场景中,结构域是蛋白质中不同的功能或结构单元,负责引导PPI的发生和表达特定的蛋白质功能,蛋白质域可以代表 PPI 层次结构的关键中间尺度。因此,对PPI问题继续进行层次划分,本文建议未来工作引入蛋白域信息进一步增强蛋白质表征能力。由于真实的域标记信息通常难以获得,本文认为:对基于不完全可靠域信息的三视图层次模型的开发将可能进一步推进机器对PPI问题的理解。

微信
微博
facebook
linkedin