AAAI 2025：CAD-GPT，让3D建模像说话一样简单

almosthuman2014 · 2025 年1 月 3 日 11:30

CAD-GPT：一种可以根据图片或文字精准生成3D建模代码的多模态大语言模型，让3D建模更简单。

原文标题：AAAI 2025 | 多模态大语言模型空间智能新探索：仅需单张图片或一句话，就可以精准生成3D建模代码啦！

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650950004&idx=4&sn=5dc5b94eae6b35bcfc17888620faeaca&

冷月清谈：

上海交大i-WiN研究团队提出了一种名为CAD-GPT的多模态大语言模型，用于精准生成3D建模代码。该模型结合了3D建模空间定位机制，将3D参数映射到1D语言信息维度，增强了模型的空间推理能力。

CAD-GPT可以通过单张图片或一句话描述生成CAD构造序列，生成过程类似于专业工程师的建模方式，可以直接导入AutoDesk、ProE等建模软件。该模型解决了传统大语言模型在3D建模领域存在的空间推理难题，例如生成4个平行于车底方向的车轮。

研究团队构建了包含160k CAD模型图像和18k自然语言描述的数据集，并使用LLaVA-1.5 7B版本作为基础模型进行训练。训练过程分为两个阶段：首先进行image2CAD任务训练，然后在text2CAD任务上微调。

实验结果表明，CAD-GPT在生成包含精准语义草图、带有类别的CAD模型、空间推理以及不同尺寸模型等方面表现出色。与DeepCAD、GPT-4、Qwen2-VL-Max等模型相比，CAD-GPT生成的模型更加准确和美观。

怜星夜思：

1、CAD-GPT的出现会对传统的CAD软件和建模行业带来哪些冲击？
2、CAD-GPT的空间定位机制是如何工作的？它与其他多模态大模型的区别在哪里？
3、CAD-GPT目前还存在哪些局限性？未来的发展方向是什么？

原文内容

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

本文的主要作者来自上海交通大学电子信息与电气工程学院 i-WiN 中心团队，团队负责人是上海交通大学讲席教授关新平。本文的第一作者为上海交通大学博士生王思宇，研究方向涉及多模态大模型、大模型的可靠生成及其工业应用。本文的通讯作者和主要指导老师为i-WiN中心陈彩莲教授、乐心怡副教授和许齐敏副研究员。

计算机辅助设计（CAD）已经成为许多行业设计、绘图和建模的标准方法。如今，几乎每一个制造出来的物体都是从参数化 CAD 建模开始的。CAD 构造序列是 CAD 模型表示的一种类型，不同于 Mesh 类型的三角网格、B-rep 格式的点、线、面表示，它被描述为一系列建模操作，包括确定草图 3D 起点和 3D 草图平面方向、绘制 2D 草图、将草图拉伸成 3D 实体形状的完整参数和过程，以 JSON 代码格式储存和表示。这类表示方法与专业建模工程师构建 CAD 模型的过程最为近似，可以直接被导入 AutoDesk、 ProE 等建模软件。构建这些 CAD 模型需要领域专业知识和空间推理能力，也需要较高的学习成本。

图 1. CAD 建模代码示意图

作为空间智能的关键能力之一，空间建模能力对 MLLM 提出了严峻的挑战。尽管 MLLM 在生成 2D 网页布局代码等方面展现出了卓越的性能，这类方法在 3D 建模领域仍然存在问题，比如生成 4 个平行于车底方向车轮的小车。这是因为 MLLM 在推理 3D 草图角度和 3D 空间位置时受限于大语言模型的 1D 推理惯性，难以理解复杂数字背后真正的空间含义。

图 2. 原始多模态大模型 3D 建模效果差原因分析

近期，来自上海交通大学的 i-WiN 研究团队提出了专门用于 CAD 建模的多模态大语言模型 CAD-GPT，结合专门设计的 3D 建模空间定位机制，将 3D 参数映射到 1D 语言信息维度，提高了 MLLM 的空间推理能力，实现了基于单张图片或一句话描述的精准 CAD 建模构造序列生成。该项研究以《CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs》为题，被 AAAI 2025 接收。

论文标题：CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs
论文地址：https://arxiv.org/abs/2412.19663
项目地址：https://OpenIWIN.github.io/CAD-GPT/

方法介绍

3D 建模空间定位机制

我们把关键的 3D、2D 建模参数定义为大语言模型可以理解的建模语言，便于大模型理解和生成。具体来说，设计了 3 个系列的定位 token 来代替 3D 草图平面起点坐标、3D 草图平面角度和 2D 草图曲线坐标的参数。通过将全局空间 3D 坐标、草图平面 3D 旋转角度的特征展开到一维语言特征空间，将它们转换为两类不同的 1D 位置 tokens。此外，2D 草图被离散化并转换为特殊的 2D token。这些 token 被合并到原始 LLM 词表中。同时，纳入了 3 类适配 3 种 token 的自定义可学习的位置嵌入，以弥合语言和空间位置之间的差距。

数据集构建

基于 DeepCAD 数据集，生成了 160k 固定视角渲染的 CAD 模型图像和 18k 相应的自然语言描述数据集，构建专门用于训练多模态大语言模型的 CAD 建模数据集，便于后续其他工作训练大模型生成 CAD 模型建模序列。

训练策略与细节

我们采用 LLaVA - 1.5 7B 版本作为基础模型。训练包括两个阶段：首先在 image2CAD 任务上进行训练，然后在 text2CAD 任务上降低学习率进行微调。此外，因 CAD 建模序列长度较长，我们基于外推法，通过超参调整，扩展 LLM 的窗口长度到 8192。

图 3. CAD-GPT 原理框架图

实验效果展示

图 4. CAD-GPT 生成的各种 CAD 模型展示

图 4 中的模型展示了包含精准语义草图生成能力（如心形和字母 “E”）、带有类别的 CAD 生成能力（如桌子、椅子和钥匙）、空间推理能力（如桌子和相互垂直的圆柱体），以及生成不同尺寸的相同模型的能力（如三个有两个圆孔的不同尺寸连接器）。

基于单张图片的生成效果

将 CAD-GPT 与三种代表性方法进行了比较。第一个是 DeepCAD，它演示了 CAD 建模中的先进生成技术。第二个是 GPT-4，代表了闭源多模态大型模型的前沿。第三个是 Qwen2-VL-Max，这是领先的开源多模态大型模型之一。相比之下，CAD-GPT 产生的输出既准确又美观。

图 5. 基于图片的 CAD 生成效果对比

基于一句话描述生成效果展示

本文选择了两个有代表性的大型语言模型：领先的闭源模型 GPT-4 和最先进的开源模型 LLaMA-3.1（405B）。如图 6 所示，我们的模型始终生成高精度、美观的输出，并且展示出了与文本描述对应的语义信息。

图 6. 基于文本描述的 CAD 生成效果对比

消融实验

图 7 展示了是否添加 3D 建模空间定位机制训练模型的差异。如图所示，添加定位机制后，CAD-GPT 可以精准的推理空间角度、位置变化，以及生成准确的 2D 草图。

图 7. 消融实验效果展示

总结

本文提出 CAD-GPT，一种具有三维建模空间定位机制的多模态大模型，以提高空间推理能力。所提出模型擅长推断草图 3D 方向的变化、3D 空间位置的变化，并准确渲染 2D 草图。利用这些功能，CAD-GPT 在单张图像和文本输入条件下生成精确 CAD 模型方面表现出卓越的性能。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

SummerSun956 · 2025 年1 月 3 日 18:57

我觉得一个局限性在于对输入的理解，如果图片或文字描述不够清晰，生成的模型可能就会出现偏差。未来的发展方向可能是增强模型对输入的理解能力，使其能够更加智能地识别用户的意图。

Mystic98x · 2025 年1 月 4 日 20:09

跟其他多模态模型相比，CAD-GPT更专注于3D建模领域，它的训练数据和模型结构都是针对CAD建模任务进行优化的，所以效果更好。

SoaringEagle839 · 2025 年1 月 4 日 23:03

目前来看，CAD-GPT生成的模型可能还比较简单，对于一些复杂的、高精度的模型可能还无法胜任。未来的发展方向可能是提高模型的生成能力，使其能够处理更复杂的建模需求。

Ion31q · 2025 年1 月 5 日 15:36

我觉得CAD-GPT这类工具的出现可能会降低CAD软件的使用门槛，让更多没有专业背景的人也能参与到3D建模中来，这可能会促进一些个性化定制、DIY设计的发展。

NobleStag037 · 2025 年1 月 6 日 05:34

这取决于CAD软件公司如何应对。如果他们能够将CAD-GPT这类技术整合到自己的产品中，那么CAD软件的功能将会更加强大，用户体验也会更好。反之，如果他们固步自封，那么很可能会被市场淘汰。

Phantom20m · 2025 年1 月 6 日 13:17

我理解的关键在于它把3D坐标、角度这些空间信息变成了token，就像给模型增加了一种新的语言，让它能理解空间关系，而不是简单地把图片和文字关联起来。

GentleBreeze816 · 2025 年1 月 6 日 15:55

从长远来看，CAD-GPT这类AI辅助设计工具可能会取代一部分基础的建模工作，尤其是一些重复性劳动，这可能会对传统的CAD建模师的职业发展带来挑战，但也可能会释放他们的创造力，让他们专注于更复杂、更具创意的设计。

Frost16y · 2025 年1 月 7 日 05:12

文章中提到了3D建模空间定位机制，将3D参数转换为1D语言token，并加入了自定义的可学习位置嵌入，感觉像是把空间信息转化成了语言模型能理解的方式，具体实现细节还需要看论文。

Radiant43s · 2025 年1 月 9 日 12:31

还有一个问题是模型的可控性，用户可能希望对生成的模型进行更精细的控制，比如调整某个部件的尺寸或形状。未来的发展方向可能是提供更丰富的控制接口，让用户能够更方便地修改生成的模型。