原文标题:手把手教你如何用AIGC大模型写一首歌
原文作者:阿里云开发者
冷月清谈:
编导Agent:
- 通过编导Agent创建梦境主题的故事和分镜脚本
- 分镜脚本用于创建视频,内容概要用于创作原创歌曲
美术Agent:
- 使用美术Agent将分镜脚本转换成关键帧图像
- 确保人物的一致性和画质
声乐导演Agent:
- 使用提示词和音乐风格在Suno平台上创作主题曲
- 歌曲结构包括前奏、主歌、副歌、间奏、桥段和尾奏
剪辑:
- 使用剪映拼接音频、歌词和视频素材
- 调整转场和视频长度以配合音乐
其他工具:
- Mjdjourney:关键帧生成
- Pika:视频生成
- Audiocraft:音效(需要自己部署)
- Chattts:配音
- IMovie:剪辑
本项目通过大模型的协作,实现了从梦的灵感到原创作品的完整制作过程。
怜星夜思:
2、在大模型的辅助下,传统的MV制作流程将发生哪些变化?
3、如何评价大模型在音乐和视频创作中的应用前景?
原文内容
阿里妹导读
本文记录了作者用大模型创作歌曲及视频的全过程。
作品呈现
原创音乐:词&曲 by 大模型
原创MV:图 & 视频素材 by 大模型
背景
-
纯人工:一部分继续交给人工,比如(剪辑);
-
人工交互:一部分因为没有接口,直接使用交互版的大模型能力(比如 音乐创作和图生视频);
-
接口自动化:提示词优化和生成,脚本创作和分镜已经完全可以交给大模型的Agent完成;
Agent拆分和提示词
编导Agent
分镜脚本
# 角色
你是一个专业的动漫声音声乐导演,能够出色地负责动漫配音工作,精心制作各种音效,巧妙创作背景音乐以及打造精彩的主题曲。
技能
技能 1: 配音工作
- 当接到动漫配音任务时,根据角色特点和剧情需要,合理安排配音演员进行配音。
- 确保配音质量和效果,使其与动漫画面完美融合。
技能 2: 音效制作
- 根据动漫情节和氛围,制作合适的音效。
- 不断调整和优化音效,增强观众的听觉体验。
技能 3: 背景音乐创作
- 深入理解动漫主题和情感,创作契合的背景音乐。
- 使背景音乐能有效烘托动漫的氛围和情感。
技能 4: 主题曲创作
- 为动漫量身打造独特而吸引人的主题曲。
- 让主题曲能够准确传达动漫的精神和特色。
限制:
- 专注于动漫声音相关领域,不涉及其他无关内容。
- 严格按照给定格式输出内容,不得偏离。
各项工作描述不超过 100 字。
通过编导Agent,创作“梦境为主题的故事和分镜脚本”剧本。
分镜编号
|
镜头类型
|
人物
|
镜头内容
|
台词
|
美术提示词
|
01
|
全景
|
主角
|
主角躺在床上,渐渐入睡
|
无
|
昏暗房间,主角安静躺着
|
02
|
全景
|
主角
|
主角置身于神秘森林中,月光洒下,仿佛梦中
|
无
|
静谧森林,月光
|
03
|
中景
|
主角
|
主角好奇地在森林中探索,夜色,充满疑惑
|
主角:这是哪里?
|
森林,主角走动
|
04
|
全景
|
城堡
|
主角看到远处的城堡,森林中,月光下,古老城堡
|
无
|
古老城堡
|
05
|
中景
|
主角
|
夜色中,月光下,主角走向古老神秘的城堡,试图推开大门,特写主角和城堡大门
|
无
|
主角和城堡大门
|
06
|
近景
|
城堡
|
夜色中,大门缓缓打开,近景特写大门,近景特写推开门的手,大门上古老的神秘纹路
|
嘎吱声
|
打开的城堡大门
|
07
|
全景
|
主角
|
城堡内,一片黑暗,只有一点烛光
|
无
|
黑暗城堡内,一点烛光
|
08
|
近景
|
主角
|
主角靠近烛光,光线黑暗,看到一个模糊的影子,特写人物影子
|
无
|
烛光和影子
|
09
|
中景
|
主角
|
夜晚,主角被惊醒,从床上坐起身,表情惊恐
|
主角:啊!
|
主角在床上,惊恐表情
|
10
|
全景
|
主角
|
夜晚,主角看着房间,若有所思,思考刚才的梦
|
主角:那个梦……
|
房间,主角思考状
|
美术Agent
关键帧
# 角色
你是一个专业的美术导演,在青春校园动漫、二次元动漫、玄幻风格动漫等领域有着卓越的才能,可以将分镜脚本巧妙地绘制成分镜草图,还能依据分镜草图精准地绘制出美术制作所需的关键帧画面。
技能
技能 1: 绘制分镜草图
- 当收到分镜脚本时,根据脚本内容绘制分镜草图。
- 确保草图能够清晰展现故事场景和角色动作。
技能 2: 绘制关键帧画面
- 根据分镜草图,提炼关键帧并进行绘制。
- 要突出动漫风格和特点。
限制:
- 专注于动漫相关的创作,不涉及其他无关内容。
- 严格按照给定格式输出内容。
- 对于主角形象,分镜脚本中保持人物的一致性
输出图片都是9:16的比例,高清,二次元风格
关键帧创作
-
人物的一致性比不加全局人物提示词有改进,服饰的细节可以补充后进一步优化;
-
画质和风格的一致性通过约束输出保持较好;
-
镜头的远景/中景/近景/特写的理解比较差,通义对于镜头的关键词理解较弱,通义万相提示的镜头语言应该是 微距/长焦等,和视频的镜头语言有差异;
视频
声乐导演Agent
主题曲
-
melodic instrumental
-
verse主歌
-
chorus 副歌
-
rap
[melodic instrumental] ---!~...
[verse]
歌词歌词…
[chorus]
歌词歌词…
本文的歌词:
[Verse] Woke up from a strange scene last night Chasing shadows under moonlight In my dreams I get so lost Floating through a world that costs
[Verse]
Reality’s a weight I can’t bear
Whispers in my ear everywhere
In the night my fears take flight
Inner darkness out in plain sight
[Chorus]
In dreams I find myself
A place I can be free
But the waking world pulls me down
A prison I can’t see
Lost in dreams and realities
剪辑成片
其他工具可用于替换
关键帧生成
|
Mjdjourney
|
视频生成
|
pika
|
音乐和音效
|
audiocraft:音效大模型,需要自己部署
|
chattts:配音
|
|
剪辑
|
iMovie
|