快速搭建AI视频通话,实现与智能体实时互动,10分钟即可完成部署。
原文标题:重磅发布的「AI视频通话」如何10分钟就实现?
原文作者:阿里云开发者
冷月清谈:
传统的语音助手交互存在延迟和理解错误等问题,而AI视频通话可以实现视听同步、听说同步、逻辑思维和迅速响应等更接近真人对话的体验。
阿里云提供了一套完整的解决方案,通过三个步骤即可快速实现AI视频通话:
1. 创建实时音视频通信应用:使用阿里云的实时音视频ARTC服务,为用户与AI智能体之间的音视频通话提供高质量、低延时的保障。
2. 创建AI智能体:在阿里云智能媒体服务控制台中创建AI智能体,并配置工作流,使其能够理解用户的音视频输入并做出相应的回应。
3. 部署应用:使用阿里云提供的函数计算应用模板,快速部署示例网站,并通过浏览器或移动端访问进行体验。
用户可以通过语音和视频与AI智能体进行实时互动,智能体可以理解用户的意图并进行相应的回应。同时,该方案还支持自然对话模式、对讲机模式和智能打断等功能,提升用户体验。
怜星夜思:
2、这个AI视频通话方案的延迟是多少?能否做到像和真人视频通话一样流畅自然?
3、文章提到了“企业专属云上AI智能体”,这意味着可以定制AI智能体的功能吗?比如针对特定行业或场景进行定制开发?
原文内容
一、引言
2024年, OpenAI 正式发布了 GPT-4o,发布会上称,该模型的强大之处在于可以接受任何文本、音频和图像的组合作为输入,并直接生成上述这几种媒介输出。这也意味着人机交互将更接近人与人的自然交流。
二、操作教程
整体架构
创建实时音视频通信应用
1.开通视频直播:https://common-buy.aliyun.com/?commodityCode=live,计费方式选择按使用流量计费,点击右下角立即开通。
2.在视频云直播控制台:https://live.console.aliyun.com/overview,左侧导航栏单击直播+ > 实时音视频 > 应用管理。
3.单击创建应用。
创建AI智能体
1.登录智能媒体服务控制台:https://ims.console.aliyun.com/summary,点击立即开通按钮。
2.在服务开通页面,勾选服务协议,点击立即开通按钮。
3.点击服务授权按钮。
4.在服务授权页面,点击同意授权按钮。
5.登录 AI实时互动-智能体管理:https://ims.console.aliyun.com/ai/robot/list,单击创建智能体。
(1)基础信息:可以自定义智能体名称。
(2)工作流配置:选择 VisionChat系统工作流作为工作流ID;实时音视频ARTC应用则选择在上一步中创建的ARTC应用。完成这些配置后,点击提交按钮。
部署应用
2.其他配置项保持默认,点击页面左下角的创建并部署默认环境,等待项目部署完成即可。
3.应用部署完成后,可以在应用的环境详情中找到示例网站的访问域名,点击即可查看,确认示例网站已经部署成功。
4.当您点击拨打按钮后,系统会提示使用HTTPS访问页面。请根据提示点击所提供的链接,以完成页面跳转。
5.浏览器会提示安全证书警告或错误,可以选择点击高级选项,然后点击继续前往以访问该网站。
应用体验
一、实时视觉理解通话
-
单击拨打按钮,即可开始与智能体对话,询问有关春节习俗。
-
浏览器弹窗请求使用麦克风,点击访问该网站时允许。
-
浏览器弹窗请求使用摄像头,点击访问该网站时允许。
-
用户可以与智能体进行实时视觉理解通话,页面上会同步展示当前对话的文字信息,以便用户查阅对话内容。
5.单击右上角的,可以选择自然对话模式或者对讲机模式,以及开启/关闭智能打断。
二、如何在移动端快速集成视觉理解通话
-
当前 DEMO 提供了移动端扫码体验,支持使用微信/钉钉扫码,或复制链接后在手机浏览器中打开。
-
接下来,即可在移动端体验视觉理解通话。