开源语音模型 Dia-1.6B 爆火:逼真合成对话与情绪,24 小时斩获 3.4k Star

开源语音模型 Dia-1.6B 爆火,逼真合成对话与情绪,一天拿下 3.4k Star!效果超越 ElevenLabs Studio 和 Sesame CSM-1B。GitHub地址:https://github.com/nari-labs/dia/

原文标题:一天拿下3.4k star,这个1.6B开源模型火了,合成对话超逼真

原文作者:机器之心

冷月清谈:

Nari Labs 推出的开源语音模型 Dia-1.6B 近期在 GitHub 上迅速走红,该模型能够生成逼真的语音对话,并模拟笑声、喷嚏等情感声音。Dia-1.6B 在情绪表达方面优于 ElevenLabs Studio 和 Sesame CSM-1B 等模型。目前,Dia-1.6B 仅支持英语生成,完整版本需要约 10GB 显存运行。Nari Labs 计划未来推出量化版本和更大规模的模型,并将其开发成 B2C 应用。

怜星夜思:

1、Dia-1.6B 现在只支持英语,大家觉得未来它在中文语音合成方面会有哪些挑战?
2、文章里提到 Dia-1.6B 可以生成笑声、喷嚏等情感声音,你觉得这些非语言的声音在语音交互中有多重要?
3、Nari Labs 只有两位本科生,他们花了三个月时间就做出了 Dia-1.6B,这给你带来了哪些启发?

原文内容

机器之心报道

编辑:Panda、张倩


如果不提前告诉你,你可能很难相信这段视频里的语音全部是 AI 生成的:



这些声音来自 Dia-1.6B——一个刚刚在 𝕏、GitHub 等平台上走红的开源语音模型。它不仅能生成说话的声音、对话,同时也能合成真实感非常强的笑声、喷嚏声和吸鼻子声等表达情绪的声音。


由于效果过于逼真,它在 GitHub 上线后不到 24 小时就收获了超过 3.4k star,现在的 star 数更是已经达到了 5.4k。同时,Dia-1.6B 也是目前 Hugging Face 上热度第二的模型,目前已经被下载了超过 5600 次。


图片


  • GitHub:https://github.com/nari-labs/dia/

  • Hugging Face: https://huggingface.co/nari-labs/Dia-1.6B

  • 试用地址:https://huggingface.co/spaces/nari-labs/Dia-1.6B


在和 ElevenLabs Studio、Sesame CSM-1B 等之前以逼真著称的模型对比之后,Dia-1.6B 依然有着明显的优势,尤其是在情绪表达方面。


图片


Dia-1.6B 生成结果:



 ElevenLabs Studio 生成结果:



 Sesame CSM-1B 生成结果:



表现如此之好,自然也是收获好评无数:


图片


图片


机器之心也做了一些简单的尝试,下面是一个示例


图片



整体来说,Dia-1.6B 在合成简单英语对话方面确实表现卓越,但却并不能很好地理解用户通过括号标注的指令,偶尔会出现类似电流的杂音。


Dia 模型细节


Dia 来自 Nari Labs,是一个 1.6B 参数量的文本转语音模型。


Dia 可以直接基于文字生成高真实感的对话。用户可以对输出的音频进行调整,从而控制其情绪和语调。同时,模型还可以生成非语言的交流声音,例如笑声、咳嗽声、吸鼻子声等。


并且 Nari Labs 开源发布了 Dia,使用了 Apache License 2.0 证书。该团队表示:「为了加速研究,我们提供了预训练模型检查点和推理代码的访问权限。模型权重托管在 Hugging Face 上。」


不过遗憾的是,目前该模型仅支持英语生成。


硬件和推理加速


目前 Nari Labs 并未发布 Dia 模型的详细技术报告,但我们可以在其 Hugging Face 页面看到些许有关硬件和推理加速的技术细节。


该团队表示,Dia 目前仅在 GPU 上进行过测试(Pytorch 2.0+,CUDA 12.6)。CPU 支持也即将添加。并且由于需要下载 Descript Audio Codec,初始运行会需要更长时间。


在企业级 GPU 上,Dia 可以实时生成音频。在较旧的 GPU 上,推理会更慢。作为参考,在 A4000 GPU 上,Dia 大约每秒生成 40 个 token(86 个 token 相当于 1 秒的音频)。torch.compile 将提高受支持 GPU 的速度。


Dia 的完整版本需要大约 10GB 的显存才能运行。不过该团队承诺未来会放出一些量化版本。


Dia 还有更大规模的版本。在 Nari Labs 的 Discord 中,开发者 Toby Kim 表示更大的模型还处于规划阶段。感兴趣的用户可以通过这个链接加入等待列表:https://tally.so/r/meokbo


图片


另外,Toby Kim 还指出目前最长能稳定生成大约 25 秒的音频,但用户也可以基于之前的生成结果来生成更长的音频。


Nari Labs 简介


Nari Labs 的 Hugging Face 页面透露,Nari 是一个源自韩语的词(나리),意为百合。


据介绍,Nari Labs 是一个非常小的团队,目前仅有一位全职研究工程师和一位兼职研究工程师。他们的 GitHub 账户也是四天前才刚注册的。


图片


其中一位开发者 Toby Kim 在 𝕏 上表示,这两位工程师目前都还是本科生。而他们的目标是「构建一个可以与 NotebookLM Podcast、ElevenLabs Studio 和 Sesame CSM 相媲美的 TTS 模型。」


图片


目前看来,他们已经取得了初步的成功。Toby Kim 表示这项成功耗时三个月时间,而这个过程中他们遇到的最大阻碍是计算不足。


图片


接下来,他们计划将 Dia 做成一个 B2C 应用,可以生成有趣的对话和混音内容。


图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我觉得最大的挑战可能在于数据集的构建吧。高质量的中文语音数据集相对较少,而且标注成本也比较高。如果数据集不够大或者质量不高,模型很难学习到足够多的信息,最终效果可能不会太好。有没有大佬能贡献一些数据集?

相当重要!想想看,如果AI只会冷冰冰地说话,那还有什么人情味儿?这些情感声音能让AI更像一个真实的人,让交流更加自然和生动。比如,AI在讲一个笑话后加上一段笑声,是不是感觉一下子就亲切多了?

厉害了,我的哥!这说明年龄不是问题,关键在于兴趣和努力。只要有足够的热情和毅力,再加上一点点天赋,就能做出令人惊艳的成果。我决定今晚开始学习机器学习,争取早日也能做出自己的AI模型!

我觉得这也在提醒我们,不要迷信大公司或者名校的光环。小团队或者个人开发者,只要找准方向,也能做出颠覆性的创新。创业的门槛越来越低了,关键在于你是否有足够的创意和执行力。