使用GPT-Sovits快速生成个性化语音

ali_tech · 2024 年11 月 28 日 18:58

通过阿里云函数计算部署GPT-Sovits模型，快速体验文本到语音的合成，活动参与者可免费领取好礼。

原文标题：通过文本生成个性化语音会定制在你的“心趴”上吗？

原文作者：阿里云开发者

原文链接： http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247543061&idx=2&sn=ff2cf189969b936c2d27ff16e7a9625c&

冷月清谈：

本文介绍了在阿里云函数计算中部署GPT-Sovits语音生成模型的步骤，旨在帮助用户快速体验文本到语音的转换。用户只需完成部署和语音合成任务，即可领取奖励。GPT-Sovits模型使用少量样本即可生成高度相似的声音，适合个性化需求。此外，本文还提供了模型训练和音频管理的详细步骤。通过参与活动和实际操作，用户将能够深入了解语音合成技术以及阿里云提供的相关服务。活动每天前50名参与者可获得收纳盒奖励，相关链接供用户阅读和参与。总体来看，GPT-Sovits代表了现代语音合成技术的进步，使用方便，能有效传达个性化声音

怜星夜思：

1、你认为GPT-Sovits模型的应用场景有哪些？
2、使用GPT-Sovits模型合成语音是否存在潜在法律风险？
3、活动参与后的奖励领取有什么好处？

原文内容

活动介绍：完成部署 GPT-Sovits 应用、上传合成语音截图两个任务，即可领取收纳盒1个，每个工作日限量50个，上午10点更新奖品，领完即止。（文末点击阅读原文参与活动）。

一、引言

如果您需要通过文本生成语音，同时期望快捷地定制个性化声音，推荐您使用函数计算部署GPT-Sovits语音生成模型。GPT-Sovits是一个热门的文本生成语音的大模型，只需要少量样本的声音数据源，就可以实现高度相似的仿真效果。使用函数计算部署GPT-Sovits模型，您无需关心GPU服务器维护和环境配置，即可快速部署和体验模型，同时，可以充分利用函数计算按量付费，弹性伸缩等优势，高效、低成本地为用户提供基于GPT-Sovits模型的文本到语音生成服务。

本次活动旨在帮助用户通过实际操作，快速体验使用GPT-Sovits合成语音，并有机会赢取丰厚奖品。

二、方案概览

体验使用GPT-Sovits合成语音，只需几步：

1. 部署 GPT-Sovits 应用

借助于函数计算应用模板，您可以便捷地将 GPT-Sovits 应用部署到函数计算上。

2. 入门：快速体验使用GPT-Sovits合成语音

3. 进阶：使用GPT-Sovits进行语音模型训练

三、部署 GPT-Sovits 应用

借助于函数计算应用模板，您可以便捷地将 GPT-Sovits 应用部署到函数计算上。

1. 访问函数计算应用模板

访问函数计算应用模板[1]，参考图片，地域目前仅支持华东1（杭州）或华东2（上海），选择华东1（杭州）。其余配置项保持默认值即可，单击创建应用。模型下载可能会花费15分钟左右，请耐心等待部署完成。

针对当前应用，角色权限可能会不足，此时需要单击前往授权为角色授予所需权限。

2. 同意并继续部署

在弹出的对话框，仔细阅读应用创建提醒信息，勾选涉及的计费项和我已经了解上面的内容，并同意上述描述，然后单击同意并继续部署。

3. 访问域名

等待约1分钟，部署状态变为部署成功，表示应用部署成功，单击环境信息区域的访问域名开始体验应用。

首次访问，大约需要等待30秒，即可进入FC版GPT-SoVITS界面。

请注意保护域名的安全，不要泄露给其他人，以防产生额外费用。
****.devsapp.net域名为CNCF SandBox项目Serverless Devs社区所提供，仅供学习和测试使用，社区会对该域名进行不定期地拨测，并在域名下发30天后进行回收，强烈建议您绑定自定义域名[2]以获得更好的使用体验。

如果未绑定自定义域名，且部署的应用已超过30天，应用将无法打开，此时需要重新部署一次应用，然后重新挂载NAS[3]，即可正常使用。

四、入门：快速体验使用GPT-Sovits合成语音部署函数计算服务

1. 合成语音

在FC版GPT-SoVITS界面，选择语音克隆&推理页签，选择使用模板音频或个人上传音频作为参考音频，然后输入文本，单击合成语音，开始体验声音的合成。

使用模板音频

函数计算提供了小精灵和甜美女生的语音模板，您可以直接选择。

个人上传音频

如果您想生成特定音色、情感、语速的语音，需要上传3~10秒的参考音频，并填写参考音频的文本，选择参考音频的语种。

重要：GPT-SoVITS使用者和语音导出者需要对自己合成的语音进行妥善保管，因语音传播导致的法律问题不在函数计算负责范围内。

2. 下载

等待语音合成完成后，单击右下角的播放按钮播放语音，或可以单击 > 下载，下载生成的语音。

说明：如果语音合成失败，您可以为应用创建的函数一键启用日志功能，再次进行语音合成，并根据日志进行分析和定位问题。

五、进阶：使用GPT-Sovits进行语音模型训练

您可以通过声音源文件微调GPT-Sovits大模型，生成更加符合要求的语音。在微调训练过程中，训练步骤的所有中间产物将置于NAS文件管理系统的output文件夹下。训练将使用默认的UVR5和ASR模型。若需要使用其他的UVR5和ASR模型，可根据官方README[4]下载，并分别置于NAS文件管理系统的：

tools/asr/models和tools/uvr5/uvr5_weights目录下。

1. 可视化管理 NAS 中的语音文件

为了方便后续查看预处理的音频文件和训练后的模型。您可以按照如下步骤创建一个新的函数计算应用部署 NAS 浏览器，实现可视化管理 NAS 上的文件。

1）在应用详情页的资源信息区域找到默认挂载的文件存储 NAS，然后单击挂载点链接跳转至NAS文件存储控制台[5]。

2）单击左侧菜单文件系统 > 文件系统列表，返回文件系统列表页面。在列表中找到函数计算关联的 NAS 实例，单击目标NAS文件系统右侧操作列的 > 浏览器。

3）等待创建完成，再次单击目标NAS文件系统右侧操作列的 > 浏览器，即可打开 NAS 浏览器页面。

2. 数据预处理

1）在FC版GPT-SoVITS界面，选择数据预处理页签。

2）在输入待处理音频文件夹路径输入框中输入您在NAS文件存储系统中存放的需要预处理的音频，或直接上传需要预处理的音频，选择模型以及需要导出的文件格式，然后单击开启数据预处理。

关于各种模型的介绍，请参见FC版GPT-SoVITS界面上方的介绍。

在数据预处理输出信息区域，提示ASR任务完成后，在对应的NAS文件系统的/<函数名称>/output/目录，您可以获取预处理后的音频。各种预训练产物以及存储路径的对应关系如下。

预训练流程产物	存储路径
降噪后的语音文件	<NAS url>: /<函数名>/output/denoise_opt
音频分割后的片段	<NAS url>: /<函数名>/output/slicer_opt
使用ASR模型自动语音识别后的文字	<NAS url>: /<函数名>/output/asr_opt
使用UVR5模型进行人声和伴奏分离后的文件	<NAS url>: /<函数名>/output/uvr5_opt

3. （可选）训练语音文本校对

如果步骤二：数据预处理结果中，使用ASR模型自动语音识别到的文字与实际不相同，可通过文本校对工具进行修改。

1）在FC版GPT-SoVITS界面，选择训练语音文本校对页签。

2）在.list标注文件的路径输入框中输入步骤二：数据预处理的结果中使用ASR模型自动语音识别后的文字对应的文件denoise_opt.list所在的完整路径，然后依次单击下方的按钮进行调整。按钮功能介绍如下：

按钮名称	按钮功能介绍
Change Index / Refresh	跳转页码。当前页面文字校对完成后，单击此按钮进行翻页。
Submit Text	保存修改。如果某个识别的文字错误，修改后需单击此按钮保存。
Merge Audio	合并音频。
Delete Audio	删除音频。请谨慎使用，删除音频后将不再进行训练。
Previous Index	上一页。
Next Index	下一页。
Split Audio	分割音频。
Save File	保存文件。校对完成后，要单击此按钮保存文件。
Invert Selection	反向选择。

4. 开始模型训练

1）在FC版GPT-SoVITS界面，选择模型微调页签，在下方实验/模型名输入框输入您的模型名称，然后单击开启SoVITS训练或开启GPT训练进行模型训练。

训练后的模型将存储在NAS下的GPT_weights和SoVITS_weights文件夹内。

2）在FC版GPT-SoVITS界面，选择语音克隆&推理页签，使用您自己的模型进行再次语音合成。

更多操作说明，请参见入门：快速体验使用GPT-Sovits合成语音。

说明：如果GPT模型列表和SoVITS模型列表未找到您自己的模型，请单击右侧的刷新模型路径。

六、基于函数计算部署GPT-Sovits模型实现语音生成

想必你通过阅读，已经学会如何基于函数计算部署GPT-Sovits模型实现语音生成。现在邀请你来到阿里云开发者社区参加“基于函数计算部署GPT-Sovits模型实现语音生成”活动，跟随教程完成任务一和任务二即可领取收纳箱1个，每个工作日限量50个，上午10点更新奖品，领完即止。（同一用户仅可领取一次奖品，用户完成任务后需点击“领取奖品”按钮进行领取）。

点击阅读原文，去体验基于函数计算部署GPT-Sovits模型实现语音生成～

参考链接：

[1]https://fcnext.console.aliyun.com/applications/ai/create?template=68&from=solution

[2]https://help.aliyun.com/zh/functioncompute/fc-3-0/user-guide/configure-custom-domain-names

[3]https://help.aliyun.com/zh/functioncompute/fc-3-0/user-guide/configure-a-nas-file-system-1

[4]https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md

[5]https://nasnext.console.aliyun.com/overview

CloudySky415 · 2024 年11 月 30 日 18:40

我觉得GPT-Sovits模型特别适合用在游戏配音和动画制作上，能够让角色的声音更加多样和个性化。例如，在角色扮演游戏中，玩家可以自由选择不同的声音来增加代入感。

SoaringEagle839 · 2024 年12 月 2 日 10:17

从学术角度来看，这种模型在语音合成领域可以应用于很多研究项目，比如社会学或者心理学领域的声音分析。通过模拟不同的说话者，可以观察听众的反应，揭示语言魅力。

GreenTurtle317 · 2024 年12 月 2 日 14:57

参加活动能获得实物奖励，这不仅是对参与者的鼓励，更能在一定程度上提升用户对产品的粘性和忠诚度。免费的收纳盒，能让大家更加期待后续活动！

WinterFox306 · 2024 年12 月 2 日 07:42

从营销角度来看，这种策略能有效促使用户参与，并加深他们对品牌的认知。体验产品后获取奖励，也显得非常吸引人。

WhisperingPeacock073 · 2024 年12 月 2 日 01:03

拿到收纳盒可以用于整理我的工作，哈哈，有的有用的奖励，我当然乐意参加活动！此外，也可以和朋友们分享这个好活动，或者一起探讨使用体验！

LuckyRabbit007 · 2024 年12 月 5 日 00:54

我觉得只要在合法框架内使用，不做恶意用途，应该问题不大。但还是需要小心，自我审查一下，确保没有踩到法律红线。

OnyxHorse674 · 2024 年12 月 5 日 01:57

肯定存在风险，尤其是当合成语音模仿某个特定的人物或品牌时，可能会涉嫌侵权。用户在使用合成的语音时应该特别注意这一点，最好在合法范围内使用。

CrystalBear411 · 2024 年12 月 5 日 06:31

嘿，想象一下要是用这个模型来给我的视频博客配音多酷啊！可以搞出各种风格的声音，吸引更多观众！