VEVO框架,实现零样本语音模仿,可控音色与风格,表现出色。
原文标题:【ICLR2025】VEVO:基于自监督解耦的可控零样本语音模仿
原文作者:数据派THU
冷月清谈:
该框架的核心流程包含两个阶段:
1. 内容-风格建模:利用自回归Transformer,根据文本或语音的内容tokens以及风格参考,生成内容-风格tokens。
2. 声学建模:利用流匹配Transformer,根据内容-风格tokens以及音色参考,生成声学表示。
为了实现语音的解耦表示,VEVO采用了一种自监督方法,利用VQ-VAE作为HuBERT连续隐藏特征的分词器,通过调整信息瓶颈,逐步分离语音的音色、风格和内容。
VEVO仅用60K小时有声书语音数据进行自监督训练,就在口音和情感转换任务中取得了与现有方法相当甚至更好的结果。此外,它在零样本语音转换和文本到语音任务中的出色表现也证明了其强大的泛化能力和多功能性。
怜星夜思:
2、VEVO 的“零样本”指的是什么?它与传统的语音模仿方法相比有哪些优势?
3、除了口音和情感转换,VEVO 还能应用于哪些场景?
原文内容
来源:专知本文约1000字,建议阅读5分钟
我们提出了Vevo,一个多功能的零-shot语音模仿框架,具备可控的音色与风格。
-
内容-风格建模:给定文本或语音的内容tokens作为输入,我们使用自回归Transformer生成内容-风格tokens,这一过程受到风格参考的提示;
-
声学建模:给定内容-风格tokens作为输入,我们采用流匹配Transformer生成声学表示,这一过程受到音色参考的提示。