基于LLM的CrystaLLM模型:预测未知晶体结构的新方法

CrystaLLM模型利用大型语言模型预测未知晶体结构,加速材料科学的发现和创新。

原文标题:LLM学习原子「结构语言」,生成未知化合物的晶体结构,登Nature子刊

原文作者:数据派THU

冷月清谈:

英国雷丁大学的研究人员开发了一种名为CrystaLLM的模型,用于生成晶体结构。CrystaLLM是一种基于晶体学信息文件(CIF)格式的自回归大型语言模型(LLM),通过学习数百万个CIF文件中的模式来预测新的晶体结构。

不同于传统的晶体结构预测方法,CrystaLLM不依赖于计算成本高昂的从头计算技术。它通过直接学习CIF文件的文本表示,能够生成训练数据中未出现过的化合物的晶体结构。CrystaLLM能够自动选择合适的模板,并调整晶胞参数以适应晶胞中的原子,甚至可以生成全新的结构。

研究表明,CrystaLLM在生成逼真的晶体结构方面表现出色,甚至对未知材料也有效。相比于现有的方法,CrystaLLM具有更高的灵活性和微调潜力。虽然CrystaLLM目前还无法生成无序结构,并且受数据集的限制,但研究团队认为CrystaLLM将成为晶体结构生成的有用工具,并计划进一步探索其在物理性质预测任务中的应用。

怜星夜思:

1、CrystaLLM 模型是直接在 CIF 文件的文本上进行训练的,那么这种方法相比于将 CIF 文件转换成图结构再进行训练有什么优势和劣势呢?
2、文章提到 CrystaLLM 可以生成训练数据中未出现过的化合物的晶体结构,这是否意味着它具备一定的“创造性”?这种“创造性”是如何产生的呢?
3、CrystaLLM 目前还存在一些局限性,例如无法生成无序结构。未来如何改进 CrystaLLM 以克服这些局限性?

原文内容

来源:ScienceAI

本文约2000字,建议阅读5分钟

本文提出了一种基于晶体学信息文件 (CIF) 格式的自回归大型语言建模 (LLM) 的多功能晶体结构生成方法。



生成合理的晶体结构通常是预测材料化学成分及其性质的第一步,但当前大多数预测方法计算成本高,制约了创新进程。通过使用优质生成的候选结构来预测晶体结构,可以突破这一瓶颈。


在最新的研究中,英国雷丁大学(University of Reading)的研究人员介绍了 CrystaLLM,这是一种基于晶体学信息文件 (CIF) 格式的自回归大型语言建模 (LLM) 的多功能晶体结构生成方法。


CrystaLLM 经过数百万个 CIF 文件的训练,专注于通过文本对晶体结构进行建模,它可以为训练中未涉及的各种无机化合物生成合理的晶体结构。


这种方法挑战了传统的晶体表示,并展示了 LLM 学习有效晶体化学模型的潜力,这将加速材料科学的发现和创新。


该研究以「Crystal structure generation with autoregressive large language modeling」为题,于 2024 年 12 月 6 日发布在《Nature Communications》。



在材料科学的计算机辅助发现过程中,晶体结构预测(CSP)方法常用于探索化学系统中的新材料。这类方法旨在通过特定的物理条件推导出给定化学成分的基态晶体结构。


CSP 通常依赖于高计算开销的从头计算技术,其中通过生成候选结构来优化搜索过程。随着机器学习和数据科学技术的进步,生成模型,如自动编码器和生成对抗网络,已被应用于晶体结构的生成。


虽然大语言模型(LLM)在自然语言处理和化学成分生成中取得了显著成果,但是训练 LLM 来生成晶体结构的文本表示仍然是一个相对较新的探索领域。


CrystaLLM


雷丁大学的研究团队报告了专门为晶体生成而设计的 LLM —— CrystaLLM 。该模型专门针对无机晶体结构的文本表示进行训练,特别是晶体学信息文件 (CIF) 格式,而不是仅仅依赖于自然语言语料库或化学成分。


Luis M. Antunes 在雷丁大学攻读博士学位期间主导了这项研究,他说:「预测晶体结构就像解决一个复杂的多维拼图,而拼图碎片是隐藏的。预测晶体结构需要大量的计算能力来测试无数种可能的原子排列。」


这种方法基于两个猜想:


首先,符号序列(即标记)是许多预测任务(包括涉及化学结构的任务)的适当表示方式。其次,LLM 不仅学习标记的条件概率分布,还可能通过自回归预训练学习一个有效的世界模型,即目标现象的因果过程。


近期的研究表明,经过棋盘游戏训练的 LLM 能够追踪棋盘状态并表示领域特定的抽象概念。由此可推测,经过训练的模型也许能学习晶体结构中隐含的化学性质,并借鉴原子世界的模型生成未知结构。


CrystaLLM 是一个基于 Transformer 的 CIF 文件格式的解码器专用语言模型,在数百万个 CIF 文件的语料库上进行自回归训练。该模型不是在从 CIF 文件得出的结构表示上进行训练,而是直接在 CIF 文件的标准化和标记化文本内容上进行训练。


图示:CIF 文件的大型语言建模。(来源:论文)


在训练期间,模型会从 CIF 文件语料库中获取一系列标记,并负责预测每个给定标记后面的标记。模型训练完成后,便可用它来生成新的 CIF 文件,条件是某些起始标记序列。生成 CIF 文件涉及从模型中反复采样标记,并对累积的生成内容进行调节,直到达到终止条件。


经测试,CrystaLLM 成功生成了逼真的晶体结构,甚至对于以前从未见过的材料也是如此。


目前的晶体结构生成方法通常依赖预定义模板,在空间群约束下通过程序化或机器学习辅助的原子替换和晶胞调整来生成结构,并通过调整替换概率和范围来提高结构多样性。与此不同,CrystaLLM 通过自回归训练吸收隐式模板,自动选择适合给定组合物的模板。


图示:各种无机化合物的生成结构。(来源:论文)


此外,该模型还能自动调整晶胞参数,以适应晶胞中的原子,并根据训练过程中未显式遇到的模板生成新结构。与最近报道的基于扩散的晶体生成方法(如 CDVAE 和 DiffCSP)相比,CrystaLLM 不仅在多个方面优于现有基准,还在灵活性(如对称性输入)和微调潜力方面展现出额外优势。


「CrystaLLM 通过研究数百万种已知的晶体结构来理解模式并预测新的模式,从而取得了突破,就像一个专业的解谜者,他能识别出获胜的模式,而不是尝试每一个可能的举动。」Antunes 说。


图示:无条件生成的新结构。(来源:论文)


局限性


目前该方法仍有几个局限性。


首先,数据集中的任何结构都没有位点占有无序性(分数位点占有率)。因此,CrystaLLM 无法生成无序结构,并且可能无法成功生成暗示无序结构的晶胞组成和空间群组合的结构。


另一个限制是数据集的 CIF 文件并非全部使用同一级别的理论创建。训练集来自使用不同设置、函数等的 DFT 源的组合,在某些情况下,这可能会使模型难以学习细胞组成和详细结构之间的一致关系。


未来工作


尽管如此,研究人员表示,他们相信 CrystaLLM 将成为晶体结构生成的有用工具,晶体结构生成正迅速成为大规模材料发现和材料信息学的关键步骤。该团队计划探索微调模型以用于物理性质预测任务,例如预测晶格热导率,因为实验数据相对稀缺。


该模型的架构使其能够针对基于成分或基于结构的预测任务进行微调。这意味着 CrystaLLM 可能成为通用材料信息学模型的基础,该模型可用于生成任务,并针对需要成分或结构的属性预测任务进行微调。


如果该模型能够将其所学到的有关原子世界的知识转移到这些各种预测问题中,那么它可能被证明是一种与材料化学的许多方面相关的相当灵活的工具。


论文链接:

https://www.nature.com/articles/s41467-024-54639-7

相关内容:

https://www.eurekalert.org/news-releases/1067087


编辑:于腾凯
校对:林亦霖



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

我觉得直接用文本训练更灵活一些,可以利用现有的自然语言处理技术,比如Transformer。而且CIF文件本身就是一种结构化的文本,包含了丰富的晶体信息,直接处理文本可能更容易捕捉到这些信息。至于劣势,我觉得可能是对文本的依赖性比较强,如果CIF文件的格式发生变化,模型可能需要重新训练。

改进的方向可以考虑引入更多的训练数据,尤其是包含无序结构的数据。此外,可以尝试改进模型的架构,使其能够更好地处理无序性。

用文本训练的好处是更方便,坏处是可能损失一些空间信息。用图结构训练的好处是可以更好地捕捉空间信息,坏处是计算量更大,而且图结构的构建也比较复杂。各有取舍吧,看具体应用场景。

我觉得可以结合其他方法,例如分子动力学模拟,来弥补 CrystaLLM 的不足。或者可以尝试将 CrystaLLM 与其他晶体结构预测方法结合起来,形成一个更强大的预测工具。

这种“创造性”并不是凭空产生的,而是基于模型对现有数据的学习和泛化能力。CrystaLLM 通过学习大量的晶体结构数据,掌握了原子排列的规律,从而能够推断出新的、合理的晶体结构。这类似于人类的学习过程,我们通过学习已有的知识,可以创造出新的东西。

我觉得与其说是“创造性”,不如说是“预测能力”。CrystaLLM 根据已知的晶体结构数据,预测了新的化合物的晶体结构。这种预测能力是基于模型对数据内在规律的学习,而不是真正的“创造”。