可控3D分子生成:解耦等变表示学习

3D分子生成新突破!解耦等变表示,实现药物相似性和结合亲和力等属性的精准控制。

原文标题:【AAAI2025】学习解耦等变表示以实现显式可控的三维分子生成

原文作者:数据派THU

冷月清谈:

本文介绍了一种名为E(3)-等变Wasserstein自编码器的模型,用于生成具有特定属性的三维分子。该模型将潜在空间解耦为分子属性和结构上下文两个方面,实现了对分子属性(如药物相似性和结合亲和力)的显式控制,同时保持了三维结构的等变性。
该模型通过基于对齐的坐标损失函数,支持自回归地从零开始生成三维分子。实验证明,该模型在属性引导和上下文引导的分子生成任务中表现良好,可应用于药物设计和基于结构的药物发现。

怜星夜思:

1、这种解耦的潜在空间设计,除了控制药物属性外,还有什么其他潜在应用?
2、文中提到的“基于对齐的坐标损失”,具体是如何实现的?与传统的坐标损失相比有什么优势?
3、E(3)等变性在分子生成中有什么重要意义?除了Wasserstein自编码器,还有哪些模型可以实现E(3)等变性?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

我们提出了一种E(3)-等变Wasserstein自编码器,并将生成模型的潜在空间分解为两个解耦的方面。


摘要
我们考虑条件生成具有显式控制分子属性(如药物相似性(例如药物相似度的定量估计或合成可及性评分)和与特定蛋白质位点有效结合)的三维药物分子。为了解决这个问题,我们提出了一种E(3)-等变Wasserstein自编码器,并将生成模型的潜在空间分解为两个解耦的方面:分子属性和三维分子的其余结构上下文。我们的模型确保对这些分子属性进行显式控制,同时保持坐标表示的等变性和数据似然的不可变性。此外,我们引入了一种新颖的基于对齐的坐标损失,以适应等变网络用于自回归从零开始生成三维分子。大量实验验证了我们模型在基于属性引导和基于上下文引导的分子生成中的有效性,包括从零开始的三维分子设计和针对蛋白质靶标的基于结构的药物发现。




关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


传统的坐标损失可能会受到分子旋转的影响,导致即使结构相似,损失也很大。基于对齐的坐标损失应该可以解决这个问题,提高训练效率。

感觉可以用来生成特定形状的分子,比如用于纳米机器人的构建。

我理解“基于对齐的坐标损失”应该是为了解决分子旋转和平移不变性的问题,可能需要先对生成的分子和目标分子进行某种对齐操作,然后再计算坐标之间的差异。这样相比直接计算坐标损失,应该能更好地捕捉分子的结构相似性。

除了药物设计,这在材料科学领域也可能很有用。比如,可以设计具有特定光电特性的新材料。

我觉得可以用于控制分子的其他物理化学性质,比如溶解度、logP值等等,这样可以更方便地筛选符合特定要求的分子。

除了 Wasserstein 自编码器,像 SE(3)-Transformer、等变图神经网络(EGNN) 等模型也可以实现 E(3) 等变性,它们在分子建模领域也都有应用。

E(3) 等变性保证了模型的输出不会随着分子的旋转和平移而改变,这对于分子性质预测和生成至关重要,因为分子的性质与其空间取向无关。

E(3) 等变性可以减少数据增强和模型参数的需求,提高模型的泛化能力和效率

估计是类似于点云配准的思路?论文里应该有更详细的描述,得去看看。