ICLR2025:VEVO,零样本语音模仿新框架,音色风格轻松掌控

VEVO框架,实现零样本语音模仿,可控音色与风格,表现出色。

原文标题:【ICLR2025】VEVO:基于自监督解耦的可控零样本语音模仿

原文作者:数据派THU

冷月清谈:

VEVO是一个全新的零样本语音模仿框架,它能够在不依赖标注数据的情况下,实现对音色和说话风格的可控模仿。

该框架的核心流程包含两个阶段:

1. 内容-风格建模:利用自回归Transformer,根据文本或语音的内容tokens以及风格参考,生成内容-风格tokens。
2. 声学建模:利用流匹配Transformer,根据内容-风格tokens以及音色参考,生成声学表示。

为了实现语音的解耦表示,VEVO采用了一种自监督方法,利用VQ-VAE作为HuBERT连续隐藏特征的分词器,通过调整信息瓶颈,逐步分离语音的音色、风格和内容。

VEVO仅用60K小时有声书语音数据进行自监督训练,就在口音和情感转换任务中取得了与现有方法相当甚至更好的结果。此外,它在零样本语音转换和文本到语音任务中的出色表现也证明了其强大的泛化能力和多功能性。

怜星夜思:

1、VQ-VAE 和 HuBERT 在 VEVO 中分别扮演什么角色?它们是如何协同工作的?
2、VEVO 的“零样本”指的是什么?它与传统的语音模仿方法相比有哪些优势?
3、除了口音和情感转换,VEVO 还能应用于哪些场景?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

我们提出了Vevo,一个多功能的零-shot语音模仿框架,具备可控的音色与风格。


语音模仿,尤其是针对特定的语音属性,如音色和说话风格,对于语音生成至关重要。然而,现有的方法往往过度依赖标注数据,且难以有效地解耦音色与风格,这使得在零-shot场景下实现可控生成面临挑战。为解决这些问题,我们提出了Vevo,一个多功能的零-shot语音模仿框架,具备可控的音色与风格。Vevo的工作流程分为两个核心阶段:
  1. 内容-风格建模:给定文本或语音的内容tokens作为输入,我们使用自回归Transformer生成内容-风格tokens,这一过程受到风格参考的提示;
  2. 声学建模:给定内容-风格tokens作为输入,我们采用流匹配Transformer生成声学表示,这一过程受到音色参考的提示。

为了获得语音的内容和内容-风格tokens,我们设计了一种完全自监督的方法,逐步解耦语音的音色、风格和语言内容。具体来说,我们采用VQ-VAE [1]作为HuBERT [2]连续隐藏特征的分词器,将VQ-VAE字典的词汇量视为信息瓶颈,并精心调整该瓶颈,以获得解耦后的语音表示。Vevo在没有针对风格特定语料库的微调下,单纯使用60K小时有声书语音数据进行自监督训练,在口音和情感转换任务中,能够与现有方法匹敌或超越。此外,Vevo在零-shot语音转换和文本到语音任务中的有效性,进一步证明了其强大的泛化能力和多功能性。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


VEVO 的“零样本”指的是它不需要在目标语音数据上进行额外的训练,就可以模仿新的音色和风格。相比之下,传统的语音模仿方法通常需要大量的目标语音数据进行微调,这限制了它们的泛化能力。VEVO 的优势在于它可以处理未见过的语音,并且可以灵活地控制音色和风格。

我觉得 VEVO 在娱乐领域也有很大的潜力,比如可以用来制作虚拟角色的配音,或者制作变声器之类的趣味应用。

可以把 HuBERT 理解成一个特征提取器,它提取的是连续的语音特征。而 VQ-VAE 则是一个量化器,它把连续的特征量化成离散的码本。这就好比把一段音频转换成乐谱,HuBERT 负责记录每个音符的音高、时长等信息,而 VQ-VAE 则负责把这些信息转换成对应的音符符号。

零样本学习就像我们学习语言一样,我们不需要学习每个单词的具体含义,就可以通过语法和上下文理解句子的意思。VEVO 也是一样,它不需要对每个声音进行训练,就可以通过学习语音的共性特征来模仿新的声音。

“零样本”简单来说就是“举一反反三”,VEVO 只需要学习一些基本的语音知识,就可以模仿各种不同的声音,而不需要专门针对每个声音进行训练。传统的语音模仿方法就像鹦鹉学舌,只能模仿听到过的声音,而 VEVO 则更像一个专业的配音演员,可以根据需要演绎各种不同的角色。

简单来说,HuBERT 就像一个“耳朵”,负责听声音并理解其中的含义,而 VQ-VAE 就像一个“翻译官”,把 HuBERT 听到的内容翻译成计算机能理解的语言。它们一起工作,让计算机能够更好地理解和模仿语音。

从更长远的角度来看,VEVO 或许可以应用于辅助语言学习、跨语言交流等领域,帮助人们更好地理解和使用不同的语言。

除了口音和情感转换,VEVO 还可以应用于语音克隆、语音合成、语音修复等场景。例如,可以利用 VEVO 来生成个性化的语音助手,或者修复受损的语音录音。

VQ-VAE 在 VEVO 中充当了 HuBERT 连续隐藏特征的分词器,你可以理解为它把 HuBERT 提取的特征量化成一个个离散的“词汇”。HuBERT 负责提取语音中的高级特征,而 VQ-VAE 则把这些特征转换成更易于处理的形式,就像把一段话变成一个个单词一样。二者协同工作,实现了语音特征的有效量化和解耦。