利用阿里云 FC 与 NAS,让喜欢的角色说出你的童年

原文标题:利用FC与NAS体验生成式语音AI,让喜欢的人物大声喊出你的童年

原文作者:阿里云开发者

冷月清谈:

- 利用阿里云函数计算和文件存储产品,可以轻松部署和使用 GPT-Sovits 语音生成模型,实现高质量的语音合成。 - 部署过程包括开通 FC 和 NAS 产品,创建应用并部署 GPT-Sovits 服务,共需约 1 分钟。 - 使用方法分为快速体验和声音训练两部分,其中快速体验可直接合成语音,声音训练可定制训练模型。 - 文章提供示例文本供快速体验,并详细介绍了数据预处理、微调文本和训练模型的具体步骤。 - 活动期间参与体验并部署作品,有机会赢取多功能运动收纳包和蓝牙无线小音箱。

怜星夜思:

1、GPT-Sovits 在语音合成领域的优势体现在哪些方面?
2、除了本文中提到的,《精灵宝可梦》、《灌篮高手》、《舒克和贝塔》外,大家还能想到哪些童年经典动画片的台词适合用 GPT-Sovits 合成?
3、除了语音合成,GPT-Sovits 还能在哪些领域发挥作用?

原文内容


一、引言

AI语音生成技术的迅猛发展,使得个性化语音克隆成为可能。通过阿里云函数计算,我们可以高效地部署GPT-Sovits语音生成模型,实现高质量的语音合成。本文将详细介绍如何使用阿里云部署和使用GPT-Sovits语音生成模型,从环境准备到部署和测试,为开发者提供全面的操作指引。

二、开通产品

  1. 函数计算FC
函数计算是一款 Serverless 计算产品,可以为您提供Stable Diffusion必需的CPU/GPU计算资源。
  1. 文件存储NAS
如果您需要自定义模型,还需要借助NAS产品的存储能力来存储您的模型文件。

三、部署GPT-Sovits

快速在阿里云函数计算上搭建自己的GPT-Sovits 服务,然后进行推理和训练。
  1. 前往函数计算控制台。
  2. 请确认访问的控制台是函数计算3.0,否则您需要在右上角单击体验函数计算3.0。
  3. 在左侧导航栏,单击应用。
  4. (可选)在应用页面,单击创建应用。
  5. 在应用页面,选择人工智能>语音克隆生成GPT-SoVITS,单击立即创建。
  6. 在创建应用页面,部署类型选择直接部署,角色名称请确认所需要的权限均已获取(若缺失权限请按照页面引导进行操作),服务状态请确认函数计算FC和文件存储NAS已开通,其他配置保持默认即可,然后单击创建并部署默认环境。
  7. 在活动应用创建提醒对话框中,选中函数计算FC和文件存储NAS两个收费项,选中我已经了解上面的内容,并同意上述描述,单击同意并进行部署。
  8. 等待约1分钟,部署状态变为部署成功,表示应用部署成功,并生成访问域名,单击访问域名后的链接开始体验应用。

四、开始使用 GPT-Sovits

(一)快速体验
直接用已经准备好的DEMO声音样例,直接进行声音的合成和体验。
我们准备了一些童年经典动画片的台词,您可以合成试试:
  • 既然你诚心诚意的发问了,我们就大发慈悲的告诉你,为了防止世界被破坏,为了守护世界的和平,贯彻爱与真实的邪恶,可爱又迷人的反派角色,武藏、小次郎!我们是穿梭在银河的火箭队,白洞,白色的明天在等着我们! ——《精灵宝可梦
  • 成为全国第一是我从小的梦想,我不会放弃,这点小伤根本不能让我放弃。 ——《灌篮高手》
  • 舒克舒克舒克舒克开飞机的舒克,贝塔贝塔贝塔贝塔开坦克的贝塔。——《舒克和贝塔》
  1. 选择默认语音模板,输入需要生成的文本,单击合成语音。
  1. 等待语音合成之后,可以单击播放。

(二)声音训练

训练步骤的所有中间产物将置于NAS的output文件夹下。
训练将使用默认的UVR5和ASR模型。若需要使用其他的UVR5和ASR模型,可根据官方README下载,并分别置于NAS的tools/asr/models和tools/uvr5/uvr5_weights目录下。
  1. 数据预处理
准备一个较长的你需要克隆的原始声音,单击数据预处理,输入您需要上传的语音文件,单击开始数据预处理。
2. 微调文本
单击训练语音文本校对,调整原始文本的内容。
3. 训练
单击模型微调,开启SoVITS训练和GPT训练。训练后的模型将存于NAS下的GPT_weights和SoVITS_weights文件夹内。
4. 训练完之后,在语音克隆&&推流页签,刷新和选择自己训练的模型,再体验合成语音。

五、清理

您部署GPT-Sovits会使用函数计算FC产品,您创建模型管理器使用了文件存储NAS产品。如果您后续不再使用GPT-Sovits可以删除以下两个部分,函数计算不调用不会计费,文件存储NAS只要有模型存储即会付费,因此请您注意删除相关资源。如果您需要长期使用,请忽略此步骤,并随时注意账号扣费情况。

六、利用FC与NAS体验生成式语音AI,最高赢蓝牙音箱

想必你通过实操,已经学会如何利用阿里云FC与NAS体验生成式语音AI。现在邀请你来到阿里云开发者社区参加“让喜欢的人物大声喊出你的童年”活动。跟随教程完成生成式语音AI实践并上传部署作品,即可领取多功能运动收纳包,限量600个。邀请好友一起参加活动,有机会赢取蓝牙无线小音箱。
点击阅读原文体验生成式语音AI~

**医疗领域:**辅助诊断、患者康复指导。

**学术派:**GPT-Sovits 结合了 GPT 语言模型和 SoVITS 声学模型的优点,能生成自然流畅且情感丰富的语音,在语音合成领域具有显著的优势。

**怀旧派:**葫芦娃,葫芦娃,一藤藤七个娃。

**其他领域:**信息摘要、知识图谱构建。

**唱见派:**用 GPT-Sovits 制作伴奏,自己填词演唱,分分钟变身唱见,美妙的歌声,从此不再是梦想。

**段子手:**用 GPT-Sovits 给Siri配音, Siri:你好,我是你的语音助手,今天我不想上班。

**魔幻派:**哈利·波特,阿瓦达索命。

**娱乐派:**用它来给心爱的动漫角色配音,简直太酷了!能让喜欢的角色说出自己想说的话,简直不要太爽。

**实用派:**GPT-Sovits 强大的文本转语音能力,可以应用于客服机器人、有声读物、智能家居等场景,提升用户体验。

**商业派:**GPT-Sovits 在商业领域也有广阔的应用前景,比如广告配音、游戏 NPC 配音,能为企业节省大量的配音成本。

**励志派:**樱桃小丸子,今天天气真好。

**冒险派:**海贼王,我要成为海贼王。

**科幻派:**变形金刚,汽车人,变形,出发。

**疗愈派:**米老鼠和他的朋友们,欢乐多又多。

**悬疑派:**名侦探柯南,真相只有一个。

**热血派:**圣斗士,为了和平。

**娱乐领域:**虚拟偶像、游戏交互。

**抖机灵派:**用 GPT-Sovits 给自家宠物配音,哈哈,它们终于能用人类语言交流了。但愿它们不会说:鏟屎的,快铲屎!

**金融领域:**智能客服、风控分析。