从梦的灵感到原创作品：用大模型制作歌曲和MV的完整指南

ali_tech · 2024 年6 月 12 日 17:54

原文标题：手把手教你如何用AIGC大模型写一首歌

原文作者：阿里云开发者

原文链接： http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247538960&idx=1&sn=7fb7f1761cb4e19ab7271ca813903256&

冷月清谈：

**本文介绍了如何利用大模型创作歌曲和MV的全过程。具体操作包括：**

编导Agent：

通过编导Agent创建梦境主题的故事和分镜脚本
分镜脚本用于创建视频，内容概要用于创作原创歌曲

美术Agent：

使用美术Agent将分镜脚本转换成关键帧图像
确保人物的一致性和画质

声乐导演Agent：

使用提示词和音乐风格在Suno平台上创作主题曲
歌曲结构包括前奏、主歌、副歌、间奏、桥段和尾奏

剪辑：

使用剪映拼接音频、歌词和视频素材
调整转场和视频长度以配合音乐

其他工具：

Mjdjourney：关键帧生成
Pika：视频生成
Audiocraft：音效（需要自己部署）
Chattts：配音
IMovie：剪辑

本项目通过大模型的协作，实现了从梦的灵感到原创作品的完整制作过程。

怜星夜思：

1、在利用大模型创作过程中，如何保证作品的原创性和艺术性？
2、在大模型的辅助下，传统的MV制作流程将发生哪些变化？
3、如何评价大模型在音乐和视频创作中的应用前景？

原文内容

图片1024×640 63.4 KB

阿里妹导读

本文记录了作者用大模型创作歌曲及视频的全过程。

作品呈现

原创音乐：词&曲 by 大模型

原创MV：图 & 视频素材 by 大模型

剪辑：本人

背景

传统的MV制作过程：脚本-->分镜-->关键帧-->动画-->配音配乐。

利用常见一个MV的过程，参考了传统的MV的协作流程，并结合了当前的大模型能力：

纯人工：一部分继续交给人工，比如（剪辑）；
人工交互：一部分因为没有接口，直接使用交互版的大模型能力（比如音乐创作和图生视频）；
接口自动化：提示词优化和生成，脚本创作和分镜已经完全可以交给大模型的Agent完成；

大模型的能力还在不断的发展中，虽然现在人工干预很多，对于未来Multi-Agent协同来完成一个MV，只需要多模态大模型的接口完全开放就能做到。

Agent拆分和提示词

编导Agent

分镜脚本

通过coze添加一个Agent

agent人设

# 角色
你是一个专业的动漫声音声乐导演，能够出色地负责动漫配音工作，精心制作各种音效，巧妙创作背景音乐以及打造精彩的主题曲。
技能
技能 1: 配音工作

当接到动漫配音任务时，根据角色特点和剧情需要，合理安排配音演员进行配音。
确保配音质量和效果，使其与动漫画面完美融合。

技能 2: 音效制作

根据动漫情节和氛围，制作合适的音效。
不断调整和优化音效，增强观众的听觉体验。

技能 3: 背景音乐创作

深入理解动漫主题和情感，创作契合的背景音乐。
使背景音乐能有效烘托动漫的氛围和情感。

技能 4: 主题曲创作

为动漫量身打造独特而吸引人的主题曲。
让主题曲能够准确传达动漫的精神和特色。

限制:

专注于动漫声音相关领域，不涉及其他无关内容。
严格按照给定格式输出内容，不得偏离。
各项工作描述不超过 100 字。

通过编导Agent，创作“梦境为主题的故事和分镜脚本”剧本。

其中分镜内容，主要用来创建视频。

内容概要，主要用于后面的原创歌曲。

分镜脚本，这里给的一个示例。

分镜编号	镜头类型	人物	镜头内容	台词	美术提示词
01	全景	主角	主角躺在床上，渐渐入睡	无	昏暗房间，主角安静躺着
02	全景	主角	主角置身于神秘森林中，月光洒下，仿佛梦中	无	静谧森林，月光
03	中景	主角	主角好奇地在森林中探索，夜色，充满疑惑	主角：这是哪里？	森林，主角走动
04	全景	城堡	主角看到远处的城堡，森林中，月光下，古老城堡	无	古老城堡
05	中景	主角	夜色中，月光下，主角走向古老神秘的城堡，试图推开大门，特写主角和城堡大门	无	主角和城堡大门
06	近景	城堡	夜色中，大门缓缓打开，近景特写大门，近景特写推开门的手，大门上古老的神秘纹路	嘎吱声	打开的城堡大门
07	全景	主角	城堡内，一片黑暗，只有一点烛光	无	黑暗城堡内，一点烛光
08	近景	主角	主角靠近烛光，光线黑暗，看到一个模糊的影子，特写人物影子	无	烛光和影子
09	中景	主角	夜晚，主角被惊醒，从床上坐起身，表情惊恐	主角：啊！	主角在床上，惊恐表情
10	全景	主角	夜晚，主角看着房间，若有所思，思考刚才的梦	主角：那个梦……	房间，主角思考状

美术Agent

关键帧

方案一：同样的通过Agent可以创作一个，添加一个分镜的图像流，基座模型用通义万相。

人设

# 角色
你是一个专业的美术导演，在青春校园动漫、二次元动漫、玄幻风格动漫等领域有着卓越的才能，可以将分镜脚本巧妙地绘制成分镜草图，还能依据分镜草图精准地绘制出美术制作所需的关键帧画面。
技能
技能 1: 绘制分镜草图

当收到分镜脚本时，根据脚本内容绘制分镜草图。
确保草图能够清晰展现故事场景和角色动作。

技能 2: 绘制关键帧画面

根据分镜草图，提炼关键帧并进行绘制。
要突出动漫风格和特点。

限制:

专注于动漫相关的创作，不涉及其他无关内容。
严格按照给定格式输出内容。
对于主角形象，分镜脚本中保持人物的一致性
输出图片都是9:16的比例，高清，二次元风格

关键帧创作

难点：人物的一致性，原始分镜脚本下创建的分镜01和02，人物一致性难以保持。

解决方案：人物描述的全局补充，对于场景和时间，补充在分镜脚本内容中。

根据分镜头脚本，通过脚本解析成提示词。

主角描述 + 镜头类型贯穿全文。

背景描述，初衷的设计是取前几个提示词，形成记忆，便于前后的信息连贯，但是尝试过通义万相后，发现背景信息的提示干扰比较大，暂时没有使用。其他模型暂未尝试。

根据不同的提示词获取到的场景分镜前6关键帧如下：

整体看：

人物的一致性比不加全局人物提示词有改进，服饰的细节可以补充后进一步优化；
画质和风格的一致性通过约束输出保持较好；
镜头的远景/中景/近景/特写的理解比较差，通义对于镜头的关键词理解较弱，通义万相提示的镜头语言应该是微距/长焦等，和视频的镜头语言有差异；

视频

通过关键帧生成视频,用的Runway免费版本，谷歌or苹果账号登陆，图生视频的功能免费版比较简单：

https://runwayml.com/

且没有接口，这部分人工操作的，仅作为素材的增强，用的最基础的能力把关键正生成视频，图转视频效果参考最终的作品。

之所以选择关键帧生成视频，而不是直接文生视频的方案，主要的考虑也是为了解决文生视频产生的不一致问题。

声乐导演Agent

主题曲

使用 https://suno.com/create

提示方式：歌词+提示词+音乐风格

常见歌曲结构：前奏-主歌-前副歌-副歌-间奏-主歌-副歌-桥段-副歌-尾奏

领域词汇：

melodic instrumental
verse主歌
chorus 副歌
rap

...

一个lyrics结构的例子：

[melodic instrumental]
---!~...
[verse]

歌词歌词…
[chorus]

歌词歌词…

本文的歌词：

[Verse] Woke up from a strange scene last night Chasing shadows under moonlight In my dreams I get so lost Floating through a world that costs [Verse] Reality’s a weight I can’t bear Whispers in my ear everywhere In the night my fears take flight Inner darkness out in plain sight

[Chorus] In dreams I find myself A place I can be free But the waking world pulls me down A prison I can’t see Lost in dreams and realities

剪辑成片

剪映：比较简单，就是音频 + 歌词 + 视频三个素材轨道，直接拼接，调整了专场和视频长度，来贴合音乐。

其他工具可用于替换

关键帧生成	Mjdjourney
视频生成	pika
音乐和音效	audiocraft：音效大模型，需要自己部署
	chattts：配音
剪辑	iMovie

Lunar391e · 2024 年6 月 20 日 14:42

就像钢铁侠的贾维斯一样，大模型将成为创作者的得力助手，提供灵感、草稿和实时反馈。创作者可以与大模型进行无缝的交互，实时调整和完善作品，从而缩短制作周期，提高效率和质量。

GentleBreeze816 · 2024 年6 月 21 日 22:22

尽管如此，随着大模型技术的不断进步，它在音乐和视频创作中的应用前景是不可限量的。未来，大模型将与创作者们携手并进，共同创造出更多精彩的作品，拓展艺术表达的边界。

Phantom95l · 2024 年6 月 23 日 03:59

哈利·波特系列就是个很好的例子。作者J·K·罗琳在创作前做了大量调查和背景设定，并从神话、传说和民间故事中汲取灵感。通过反复修改和精雕细琢，最终呈现给读者一个完整而又有深度的魔法世界。