原文标题:耳朵没错,是声音太真了,字节豆包语音合成成果Seed-TTS技术揭秘
原文作者:机器之心
冷月清谈:
字节跳动豆包大模型团队最近公布了其语音合成模型Seed-TTS,该模型在生成语音方面具有以下特点:
- 逼真度极高:生成的语音几乎与真人完全一样,连发音瑕疵都能生成出来。
- 定制化:可以根据文本生成特定音色的语音,并带上原素材的声音特征。
- 多场景适用:不仅可以生成“单人”声音,还可以根据小说情节和不同角色特质,呈现对应人物和情绪的“说书”。
技术亮点
Seed-TTS是一个语音生成基座大模型,与传统单一任务TTS模型不同,它可以:
- 适配多种声音:包括英语、日语、汉语的方言、喜怒哀乐等各种情绪。
- 细节建模:注重语音细节,避免“机械音”。
- 高稳定性和自然度:不依赖先验知识和时长模型,保证语音生成的高质量。
- 超大数据量:涵盖各方面的数据,确保数据覆盖全面。
- 高效工程化:支持大规模数据处理和模型复杂度,保证工程效率。
研究价值
Seed-TTS的研究不仅提供了技术解决方案,还探索了许多过去未解决的问题,例如语音建模适合文本模型还是扩散模型、语音模型的稳定性问题,以及如何利用强化学习提升模型效果。
应用前景
Seed-TTS在语音生成方面具有广泛的应用潜力,包括:
- 音频内容制作:小说电子书、角色设计、视频翻译等。
- 辅助表达:帮助口吃或无法发声的人表达自己。
- 娱乐互动:虚拟角色、播音、演员表达等。
目前,Seed-TTS的部分技术已在字节跳动内部产品中上线,并获得用户好评。团队还将继续优化和完善模型,使其更好地服务于各种场景。
怜星夜思:
2、Seed-TTS能否真正替代真人配音,让AI配音大范围普及?
3、Seed-TTS会不会颠覆传统的语音合成技术和应用市场?
原文内容
机器之心编辑部
Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成果。
它生成的语音几乎与真人完全一样,连发音瑕疵也能生成出来,尤其在学习模仿人类说话方面,相似性和自然度均有很好表现。
举例来说,将一段语音提供给 Seed-TTS,它就能按文本生成全新语音,且带上原素材的声音特征。
原素材(Prompt):
突然,身边一阵笑声。我看着他们,意气风发地挺直了胸膛,甩了甩那稍显肉感的双臂,轻笑道:“我身上的肉,是为了掩饰我爆棚的魅力,否则,岂不吓坏了你们呢?”
Suddenly, there was a burst of laughter beside me. I looked at them, stood up straight with high spirit, shook the slightly fleshy arms, and smiled lightly, saying, "The flesh on my body is to hide my bursting charm. Otherwise, wouldn't it scare you?"
嘿嘿,你是不是也想拥有甜甜的恋爱呢?《微微一笑很倾城》是你的不二选择,男女主是校花校草类型,他们通过游戏结识,再到两人见面,全程没有一点误会,真的齁甜,想想都忍不住“姨妈笑”~
小傻瓜,嗯……算是个很可爱很亲切的名字,有点“独特”哦,不过我有些好奇,你为什么会给我选这个昵称呢?
“这个药丸……不会是迷药或者春药之类的东西吧?我怎么闻着香味儿和两位姐姐说的那么相似?嗯,你该不会……想对我图谋不轨吧?”韩立闻言是愣了半天呐,他现在突然有种吐血三碗的感觉,这女孩儿的心思也太难以捉摸了吧,竟然能把迎香丸,联想到春药上。哎呀韩立现在也不知是该佩服对方的谨慎小心,还是应该为自己的无故蒙冤,而大呼三声了。“看样子,你好像说的是真的。不过,我还是要把它拿去给二姐检验下才能用,毕竟我们女儿家,要小心为上。”“咳,咳,呃随便你了。”韩立无言,只能干咳几声,掩饰一下自己脸上的窘迫,他现在觉得呀,自己还是离这个小妖精远点的好,否则,不知什么时候就要被她给郁闷死了。“哼哼,不过,如果这药真像你所说的那么好用,那就算你过关啦!今后师兄在莫府有什么为难的事,尽管可以来找彩环帮忙。我只要收些小小的报酬,就肯定能帮你完全解决。”“行啊,师妹,师兄有事,一定找你帮忙。”韩立这时也恢复了常态,皮笑肉不笑地回应着此话,心里呀,却在恶狠狠地想到:“找你这个小财迷才怪了。”
-
论文链接:https://arxiv.org/abs/2406.02430
-
效果展示:https://bytedancespeech.github.io/seedtts_tech_report/
-
生成模型有语言模型和扩散模型两套,分别偏向文本和图像,语音同时具备文本和图像两者的属性,这两者哪个更适合用来语音建模,这是我们要去回答的问题。
-
语音和文本有很多相似之处,如何设计语音的表征,使其更适合语言模型建模,也是需要解决的问题。
-
如何利用强化学习,将各种主客观的偏好信息集成到生成系统里,同样是问题之一。