ETHZ博士论文探讨如何从视觉和语言数据中学习和创建数字人,并提出多种创新方法解决捕捉和理解难题。
原文标题:【ETHZ博士论文】从视觉和语言中学习数字人
原文作者:数据派THU
冷月清谈:
论文中提出的方法涵盖了面部、身体、手部、头发和服装的捕捉,并借助大语言模型实现了对数字人的理解和推理。
具体研究成果包括:
1. 开发了一个框架,可以从单张图像中生成逼真且可动画化的3D面部;
2. 提出了PIXIE方法,可以从单张图像估算全身3D虚拟人,并具有逼真的面部细节;
3. 开发了SCARF和DELTA方法,用于从单目视频中捕捉分离的身体、服装、面部和头发,并采用混合表示方法,可以将捕捉到的服装迁移到任意体型;
4. 基于SCARF,提出了TECA方法,利用文本生成图像模型创建逼真且可编辑的3D虚拟人;
5. 开发了ChatPose,这是第一个用于理解和推理3D人体姿势的模型,它利用大语言模型,可以描述人类行为、生成3D姿势,并推理潜在的下一步动作。
这些方法的提出,有望推动数字人在各个领域的广泛应用。
怜星夜思:
2、混合表示方法在数字人建模中有哪些优势和局限性?
3、如何进一步提高数字人建模的真实感和表现力?
原文内容
来源:专知本文约1000字,建议阅读5分钟
本论文结合了计算机视觉、计算机图形学和机器学习的研究成果,开发了可扩展的数字人类捕捉和建模方法。