CAD-GPT:一种可以根据图片或文字精准生成3D建模代码的多模态大语言模型,让3D建模更简单。
原文标题:AAAI 2025 | 多模态大语言模型空间智能新探索:仅需单张图片或一句话,就可以精准生成3D建模代码啦!
原文作者:机器之心
冷月清谈:
CAD-GPT可以通过单张图片或一句话描述生成CAD构造序列,生成过程类似于专业工程师的建模方式,可以直接导入AutoDesk、ProE等建模软件。该模型解决了传统大语言模型在3D建模领域存在的空间推理难题,例如生成4个平行于车底方向的车轮。
研究团队构建了包含160k CAD模型图像和18k自然语言描述的数据集,并使用LLaVA-1.5 7B版本作为基础模型进行训练。训练过程分为两个阶段:首先进行image2CAD任务训练,然后在text2CAD任务上微调。
实验结果表明,CAD-GPT在生成包含精准语义草图、带有类别的CAD模型、空间推理以及不同尺寸模型等方面表现出色。与DeepCAD、GPT-4、Qwen2-VL-Max等模型相比,CAD-GPT生成的模型更加准确和美观。
怜星夜思:
2、CAD-GPT的空间定位机制是如何工作的?它与其他多模态大模型的区别在哪里?
3、CAD-GPT目前还存在哪些局限性?未来的发展方向是什么?
原文内容
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
-
论文标题:CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs
-
论文地址:https://arxiv.org/abs/2412.19663
-
项目地址:https://OpenIWIN.github.io/CAD-GPT/