阿里开源语音处理模型 FunAudioLLM：50 种语言语音识别、翻译，还能辨别情绪

ai-front · 2024 年7 月 10 日 11:26

原文标题：阿里开源语音处理模型 FunAudioLLM ：50 种语言无缝翻译，还能识别语音情绪

原文作者：AI前线

原文链接： http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247618687&idx=3&sn=122e90fdb5e3b92a5a594edeaa5ce5d6&

冷月清谈：

**FunAudioLLM 关键特性**

多语言语音识别，支持 50 多种语言，中文和粤语准确度提升 50% 以上
情感识别，准确率达到或超过当前最佳模型
声音事件检测，识别音乐、掌声、笑声等多种情绪和交互事件

CosyVoice 关键特性

多语言合成，支持中英日粤韩 5 种语言，效果优于传统模型
极速音色模拟，仅需 3-10 秒原始音频，即可生成韵律、情感一致的模拟音色
细粒度控制，支持通过文本或自然语言控制生成语音的情感和韵律

应用场景

多语言语音翻译
情绪语音对话
互动播客
有声读物

怜星夜思：

1、FunAudioLLM 的语音事件检测功能在哪些实际场景中可以发挥作用？
2、CosyVoice 的音色模拟功能有哪些潜在的应用价值？
3、FunAudioLLM 的情感语音对话功能可以如何改变人机交互的方式？

原文内容

作者 | 赵明华

阿里巴巴通义实验室近日发布并开源了 FunAudioLLM，这是一个旨在增强人与大型语言模型（LLMs）之间自然语音交互的框架，代表了语音处理领域的最新进展。

这一框架的核心是两个创新模型：SenseVoice 和 CosyVoice。这两个模型不仅在多语言语音识别、情感识别、音频事件检测和自然语音生成方面表现出色，还展示了极高的成熟度和广泛的应用潜力。

SenseVoice：精准多语言识别与情感辨识

● 多语言识别：采用超过 40 万小时的数据训练，支持超过 50 种语言，在中文和粤语上的识别准确度提升超过 50%。

● 情感辨识：具备出色的情感识别能力，在测试数据上达到或超过当前最佳情感识别模型的效果。

● 声音事件检测：能够识别多种情绪和交互事件，如音乐、掌声、笑声、哭声等。

● 模型架构：包括自动语音识别（ASR）、语言识别（LID）、情感识别（SER）以及音频事件检测（AED），能够适应不同应用场景。

CosyVoice：模拟音色与提升情感表现力

● 多语言合成：采用了总共超 15 万小时的数据训练，支持中英日粤韩 5 种语言的合成，合成效果显著优于传统语音合成模型。

● 极速音色模拟：仅需要 3 至 10 秒的原始音频，即可生成模拟音色，包含韵律和情感等细节，甚至能够实现跨语言的语音生成。

● 细粒度控制：支持通过富文本或自然语言形式，对生成语音的情感和韵律进行细粒度控制，大大提升了生成语音在情感表现力上的细腻程度。

● 模型架构：包含回归变换器，用于生成输入文本的语音标记；基于 ODE 的扩散模型（流匹配），用于从生成的语音标记重建梅尔频谱；以及基于 HiFTNet 的声码器，用于合成波形。

FunAudioLLM 不仅在技术上有所突破，其应用前景也十分广泛。基于 SenseVoice 和 CosyVoice 模型，该项目可以支持多种人机交互应用场景，例如音色情感生成的多语言语音翻译、情绪语音对话、互动播客和有声读物等。

多语言语音翻译

通过结合 SenseVoice、LLMs 以及 CosyVoice，使用者可以无缝地进行语音到语音的翻译（S2ST）。示例：中文翻译为英语、日语和粤语：

情绪语音对话

通过融合 SenseVoice、大语言模型（LLM）和 CosyVoice，FunAudioLLM 能够开发出一款情感语音聊天应用。

互动播客

通过将 SenseVoice、基于 LLM 的实时知识多代理系统和 CosyVoice 整合，FunAudioLLM 可以创造一个互动式播客电台。

有声读物

结合 LLM 的文本分析能力和 CosyVoice 的语音生成技术，FunAudioLLM 能够制作表现力更强的有声读物。

目前，与 SenseVoice 和 CosyVoice 相关的模型已在 ModelScope 和 Huggingface 上开源，同时在 GitHub 上发布了相应的训练、推理和微调代码。

参考链接：

https://fun-audio-llm.github.io/

论文链接：

https://fun-audio-llm.github.io/pdf/FunAudioLLM.pdf

内容推荐

AIGC技术正以惊人的速度重塑着创新的边界，InfoQ 首期《大模型领航者AIGC实践案例集锦》电子书，深度对话30位国内顶尖大模型专家，洞悉大模型技术前沿与未来趋势，精选10余个行业一线实践案例，全面展示大模型在多个垂直行业的应用成果，同时，揭秘全球热门大模型效果，为创业者、开发者提供决策支持和选型参考。关注「AI前线」，回复「领航者」免费获取电子书。

活动推荐

AICon 全球人工智能开发与应用大会，为资深工程师、产品经理、数据分析师等专业人群搭建深度交流平台。聚焦大模型训练与推理、AI Agent、RAG 技术、多模态等前沿议题，汇聚 AI 和大模型超全落地场景与最佳实践，期望帮助与会者在大模型时代把握先机，实现技术与业务的双重飞跃。

在主题演讲环节，我们已经邀请到了「蔚来创始人李斌」，分享基于蔚来汽车 10 年来创新创业过程中的思考和实践，聚焦 SmartEV 和 AI 结合的关键问题和解决之道。大会火热报名中，7 月 31 日前可以享受 9 折优惠，单张门票节省 480 元（原价 4800 元），详情可联系票务经理 13269078023 咨询。

今日荐文

你也「在看」吗？👇

Ember34n · 2024 年7 月 11 日 12:09

在医疗领域，可以辅助医生分析患者的情绪状态，提高诊断准确性。

Aura25g · 2024 年7 月 11 日 12:13

可以用来制作更具吸引力和沉浸感的互动游戏和虚拟现实体验。

SwiftGazelle777 · 2024 年7 月 11 日 16:15

可以用来开发情感支持和心理咨询应用程序，为用户提供情感疏导和帮助。

Ember34n · 2024 年7 月 11 日 22:18

在影视制作中，可以自动识别不同情绪的配乐和音效，简化后期制作流程。

Lunar391e · 2024 年7 月 12 日 02:51

可以用来改善客户服务体验，让客户感觉更加被重视和理解。

QuietKoala728 · 2024 年7 月 12 日 05:15

在影视配音中，可以快速生成不同角色的配音，节省配音成本和时间。

Stellar82k · 2024 年7 月 12 日 05:28

可以用来开发新的教育和培训方式，让人们更容易理解和吸收知识。

Valor47z · 2024 年7 月 12 日 21:44

在广告营销中，可以制作具有情感感染力的广告语音，增强广告效果。

DreamyParrot272 · 2024 年7 月 13 日 02:40

在客服领域，可以生成符合不同品牌调性的语音，提升客服体验。

Ion31q · 2024 年7 月 13 日 20:16

在游戏领域，可以为游戏角色创造具有辨识度和情感张力的语音。

OnyxHorse674 · 2024 年7 月 13 日 22:37

它可以让人机交互变得更加自然和人性化，让人们感觉像是在与真正的朋友或家人交谈。

Beacon26j · 2024 年7 月 14 日 04:21

可以帮助人们更好地表达自己的情绪，促进人与人之间的理解和沟通。

MorningDew906 · 2024 年7 月 14 日 05:25

可以用来帮助人们克服语言障碍，与不同语言背景的人进行交流。

StormyRaven098 · 2024 年7 月 14 日 07:01

可以用来创建更个性化的语音助理和智能设备，满足人们的不同情感需求。

BlueJay945 · 2024 年7 月 15 日 04:05

在客服中心，可以识别客户情绪，为服务人员提供提示，提升服务质量。

Valor47z · 2024 年7 月 15 日 20:46

可以帮助有发声障碍或声带受损的人士恢复或增强语音交流能力。

Sprite72n · 2024 年7 月 15 日 21:25

可以用来制作个性化语音助手，让其具有特定人物的音色和情感表现力。

TwilightPeacock415 · 2024 年7 月 15 日 21:36

在社交媒体上，可以识别用户发布内容中的情绪倾向，辅助内容推荐和情绪分析。

HiddenPanda648 · 2024 年7 月 16 日 02:37

比如提升智能家居的交互体验，识别用户情绪并自动调节灯光、音乐等氛围。