通过阿里云函数计算部署GPT-Sovits模型,快速体验文本到语音的合成,活动参与者可免费领取好礼。
原文标题:通过文本生成个性化语音会定制在你的“心趴”上吗?
原文作者:阿里云开发者
冷月清谈:
怜星夜思:
2、使用GPT-Sovits模型合成语音是否存在潜在法律风险?
3、活动参与后的奖励领取有什么好处?
原文内容
活动介绍:完成部署 GPT-Sovits 应用、上传合成语音截图两个任务,即可领取收纳盒1个,每个工作日限量50个,上午10点更新奖品,领完即止。(文末点击阅读原文参与活动)。
一、引言
如果您需要通过文本生成语音,同时期望快捷地定制个性化声音,推荐您使用函数计算部署GPT-Sovits语音生成模型。GPT-Sovits是一个热门的文本生成语音的大模型,只需要少量样本的声音数据源,就可以实现高度相似的仿真效果。使用函数计算部署GPT-Sovits模型,您无需关心GPU服务器维护和环境配置,即可快速部署和体验模型,同时,可以充分利用函数计算按量付费,弹性伸缩等优势,高效、低成本地为用户提供基于GPT-Sovits模型的文本到语音生成服务。
本次活动旨在帮助用户通过实际操作,快速体验使用GPT-Sovits合成语音,并有机会赢取丰厚奖品。
二、方案概览
体验使用GPT-Sovits合成语音,只需几步:
1. 部署 GPT-Sovits 应用
借助于函数计算应用模板,您可以便捷地将 GPT-Sovits 应用部署到函数计算上。
2. 入门:快速体验使用GPT-Sovits合成语音
3. 进阶:使用GPT-Sovits进行语音模型训练
三、 部署 GPT-Sovits 应用
借助于函数计算应用模板,您可以便捷地将 GPT-Sovits 应用部署到函数计算上。
1. 访问函数计算应用模板
访问函数计算应用模板[1],参考图片,地域目前仅支持华东1(杭州)或华东2(上海),选择华东1(杭州)。其余配置项保持默认值即可,单击创建应用。模型下载可能会花费15分钟左右,请耐心等待部署完成。
针对当前应用,角色权限可能会不足,此时需要单击前往授权为角色授予所需权限。
2. 同意并继续部署
在弹出的对话框,仔细阅读应用创建提醒信息,勾选涉及的计费项和我已经了解上面的内容,并同意上述描述,然后单击同意并继续部署。
3. 访问域名
等待约1分钟,部署状态变为部署成功,表示应用部署成功,单击环境信息区域的访问域名开始体验应用。
首次访问,大约需要等待30秒,即可进入FC版GPT-SoVITS界面。
-
请注意保护域名的安全,不要泄露给其他人,以防产生额外费用。
-
****.devsapp.net域名为CNCF SandBox项目Serverless Devs社区所提供,仅供学习和测试使用,社区会对该域名进行不定期地拨测,并在域名下发30天后进行回收,强烈建议您绑定自定义域名[2]以获得更好的使用体验。
如果未绑定自定义域名,且部署的应用已超过30天,应用将无法打开,此时需要重新部署一次应用,然后重新挂载NAS[3],即可正常使用。
四、入门:快速体验使用GPT-Sovits合成语音部署函数计算服务
在FC版GPT-SoVITS界面,选择语音克隆&推理页签,选择使用模板音频或个人上传音频作为参考音频,然后输入文本,单击合成语音,开始体验声音的合成。
-
使用模板音频
函数计算提供了小精灵和甜美女生的语音模板,您可以直接选择。
-
个人上传音频
如果您想生成特定音色、情感、语速的语音,需要上传3~10秒的参考音频,并填写参考音频的文本,选择参考音频的语种。
重要:GPT-SoVITS使用者和语音导出者需要对自己合成的语音进行妥善保管,因语音传播导致的法律问题不在函数计算负责范围内。
2. 下载
等待语音合成完成后,单击右下角的播放按钮播放语音,或可以单击 > 下载,下载生成的语音。
说明:如果语音合成失败,您可以为应用创建的函数一键启用日志功能,再次进行语音合成,并根据日志进行分析和定位问题。
五、进阶:使用GPT-Sovits进行语音模型训练
tools/asr/models和tools/uvr5/uvr5_weights目录下。
1. 可视化管理 NAS 中的语音文件
为了方便后续查看预处理的音频文件和训练后的模型。您可以按照如下步骤创建一个新的函数计算应用部署 NAS 浏览器,实现可视化管理 NAS 上的文件。
1)在应用详情页的资源信息区域找到默认挂载的文件存储 NAS,然后单击挂载点链接跳转至NAS文件存储控制台[5]。
2)单击左侧菜单文件系统 > 文件系统列表,返回文件系统列表页面。在列表中找到函数计算关联的 NAS 实例,单击目标NAS文件系统右侧操作列的 > 浏览器。
3)等待创建完成,再次单击目标NAS文件系统右侧操作列的 > 浏览器,即可打开 NAS 浏览器页面。
2. 数据预处理
1)在FC版GPT-SoVITS界面,选择数据预处理页签。
2)在输入待处理音频文件夹路径输入框中输入您在NAS文件存储系统中存放的需要预处理的音频,或直接上传需要预处理的音频,选择模型以及需要导出的文件格式,然后单击开启数据预处理。
关于各种模型的介绍,请参见FC版GPT-SoVITS界面上方的介绍。
在数据预处理输出信息区域,提示ASR任务完成后,在对应的NAS文件系统的/<函数名称>/output/目录,您可以获取预处理后的音频。各种预训练产物以及存储路径的对应关系如下。
预训练流程产物 |
存储路径 |
降噪后的语音文件 |
<NAS url>: /<函数名>/output/denoise_opt |
音频分割后的片段 |
<NAS url>: /<函数名>/output/slicer_opt |
使用ASR模型自动语音识别后的文字 |
<NAS url>: /<函数名>/output/asr_opt |
使用UVR5模型进行人声和伴奏分离后的文件 |
<NAS url>: /<函数名>/output/uvr5_opt |
3. (可选)训练语音文本校对
如果步骤二:数据预处理结果中,使用ASR模型自动语音识别到的文字与实际不相同,可通过文本校对工具进行修改。
1)在FC版GPT-SoVITS界面,选择训练语音文本校对页签。
2)在.list标注文件的路径输入框中输入步骤二:数据预处理的结果中使用ASR模型自动语音识别后的文字对应的文件denoise_opt.list所在的完整路径,然后依次单击下方的按钮进行调整。按钮功能介绍如下:
按钮名称 |
按钮功能介绍 |
Change Index / Refresh |
跳转页码。当前页面文字校对完成后,单击此按钮进行翻页。 |
Submit Text |
保存修改。如果某个识别的文字错误,修改后需单击此按钮保存。 |
Merge Audio |
合并音频。 |
Delete Audio |
删除音频。请谨慎使用,删除音频后将不再进行训练。 |
Previous Index |
上一页。 |
Next Index |
下一页。 |
Split Audio |
分割音频。 |
Save File |
保存文件。校对完成后,要单击此按钮保存文件。 |
Invert Selection |
反向选择。 |
4. 开始模型训练
1)在FC版GPT-SoVITS界面,选择模型微调页签,在下方实验/模型名输入框输入您的模型名称,然后单击开启SoVITS训练或开启GPT训练进行模型训练。
训练后的模型将存储在NAS下的GPT_weights和SoVITS_weights文件夹内。
2)在FC版GPT-SoVITS界面,选择语音克隆&推理页签,使用您自己的模型进行再次语音合成。
更多操作说明,请参见入门:快速体验使用GPT-Sovits合成语音。
说明:如果GPT模型列表和SoVITS模型列表未找到您自己的模型,请单击右侧的刷新模型路径。
六、基于函数计算部署GPT-Sovits模型实现语音生成
想必你通过阅读,已经学会如何基于函数计算部署GPT-Sovits模型实现语音生成。现在邀请你来到阿里云开发者社区参加“基于函数计算部署GPT-Sovits模型实现语音生成”活动,跟随教程完成任务一和任务二即可领取收纳箱1个,每个工作日限量50个,上午10点更新奖品,领完即止。(同一用户仅可领取一次奖品,用户完成任务后需点击“领取奖品”按钮进行领取)。
点击阅读原文,去体验基于函数计算部署GPT-Sovits模型实现语音生成~
参考链接:
[5]https://nasnext.console.aliyun.com/overview