10分钟快速实现AI视频通话：与智能体实时互动

ali_tech · 2025 年1 月 23 日 16:10

快速搭建AI视频通话，实现与智能体实时互动，10分钟即可完成部署。

原文标题：重磅发布的「AI视频通话」如何10分钟就实现？

原文作者：阿里云开发者

原文链接： http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247545274&idx=1&sn=3a5486a432bc73484519454b20cd07b5&

冷月清谈：

本文介绍了如何快速搭建一个支持视频通话的AI智能体，实现更自然的AI交互体验。

传统的语音助手交互存在延迟和理解错误等问题，而AI视频通话可以实现视听同步、听说同步、逻辑思维和迅速响应等更接近真人对话的体验。

阿里云提供了一套完整的解决方案，通过三个步骤即可快速实现AI视频通话：

1. 创建实时音视频通信应用：使用阿里云的实时音视频ARTC服务，为用户与AI智能体之间的音视频通话提供高质量、低延时的保障。

2. 创建AI智能体：在阿里云智能媒体服务控制台中创建AI智能体，并配置工作流，使其能够理解用户的音视频输入并做出相应的回应。

3. 部署应用：使用阿里云提供的函数计算应用模板，快速部署示例网站，并通过浏览器或移动端访问进行体验。

用户可以通过语音和视频与AI智能体进行实时互动，智能体可以理解用户的意图并进行相应的回应。同时，该方案还支持自然对话模式、对讲机模式和智能打断等功能，提升用户体验。

怜星夜思：

1、除了文中提到的春节习俗，这个AI智能体还能理解哪些视觉信息？比如能识别物体、进行图像描述吗？
2、这个AI视频通话方案的延迟是多少？能否做到像和真人视频通话一样流畅自然？
3、文章提到了“企业专属云上AI智能体”，这意味着可以定制AI智能体的功能吗？比如针对特定行业或场景进行定制开发？

原文内容

一、引言

2024年， OpenAI 正式发布了 GPT-4o，发布会上称，该模型的强大之处在于可以接受任何文本、音频和图像的组合作为输入，并直接生成上述这几种媒介输出。这也意味着人机交互将更接近人与人的自然交流。

我们在与传统的语音助手交互时，往往要经历至少三个阶段。

举个🌰：当我们说“XX，帮我设定一个上午10点的闹钟”。首先语音助手要进行语音识别，然后分析并执行指令，通过LLM 计划下一步要说什么，最后再将内容进行语音合成。每一个行动步骤都有可能出现较大延迟，甚至可能会理解错误，此时作为与机器交互的我们会体验感骤降。

那什么才是更接近人与人的自然交流？我们考虑视频通话的情况：

1.视听同步：可以同时接收图像与音频信息

2.听说同步：也就是当对方打断时，可以立刻停止；在对方发言的过程中，也会适时表示认可

3.逻辑思维：预测对方讲话结束发生的时间，并很快接上

4.迅速响应

5.......

这些问题都是此前的 AI 语言助手无法很好处理的，而针对上面的问题，抽象出技术要点就是：

1.拟人化交互

支持全双工实时音视频交互、智能语义识别与断句，并提供多种语言、音色和风格的语音合成及声音克隆。

2.精准感知

根据摄像头捕捉的画面内容，系统能够实时分析情境并提供与当前场景紧密相关的反馈，提升互动的质量和效率。

3.情绪捕捉

通过面部表情分析，AI 智能体能够解读用户的情绪状态，做出更加贴近用户期望的反应。

4.灵活编排控制台

白屏化 AI 组件 ( ASR/TTS/数字人/LLM...) 灵活编排，快速构建一个企业专属云上 AI 智能体。

5.高质量通话

依托实时音视频 ARTC 全球 3200+ 节点和 QoS 策略，实现高质量、低延时通话。

但是！！这一OpenAI春季发布会的重磅杀手锏，在阿里云上人人可实现，人人可体验！本文将介绍的就是如何快速创造出可视频通话的AI 智能体。以及期待每一个部署的你与它碰撞出新的火花。

点击文末“阅读原文”，参与活动可得惊喜礼物～

二、操作教程

整体架构

部署流程总体可以分为以下三个步骤：

1、创建实时音视频通信应用

2、创建AI智能体

3、实际应用的部署

其中，AI 智能体是本方案的核心组件之一，能够在云端模拟高度拟真的用户交互。用户可以根据需求自行创建智能体。通过灵活的插件式和拖拽式方式，用户可以编排各个 AI 组件，如语音转文字、多模态大模型、语音合成等，从而实现 AI 智能体的实时工作流。实时音视频通信技术（ARTC）为用户与AI智能体之间的音频通话提供了高可用、高品质、超低延时的保障。

与智能体交互的过程，可以参看下面的流程图：

通过终端 SDK 发起与云端 AI 智能体的音视频通话请求，AI 智能体接收到用户的音视频输入后，依据预定义的工作流进行处理，对视频抽帧后交由多模态大模型进行理解，并将大模型的响应结果返回给用户，从而实现与 AI 智能体的对话。

创建实时音视频通信应用

实时音视频 ARTC 是智能体和用户之间建立起实时音频通信的基础，实现 AI 实时互动需要准备一个 ARTC 应用，参照以下步骤开通并创建 ARTC 应用。

1.开通视频直播：https://common-buy.aliyun.com/?commodityCode=live，计费方式选择按使用流量计费，点击右下角立即开通。

2.在视频云直播控制台：https://live.console.aliyun.com/overview，左侧导航栏单击直播+ > 实时音视频 > 应用管理。

3.单击创建应用。

创建AI智能体

AI 智能体是在 AI 实时互动解决方案中定义的高仿真用户，用户可以根据自身需求创建智能体，并将其集成到自己的应用中，使其能够按照既定工作流程在实时音频环境中运行，从而实现实时音频交互功能。

1.登录智能媒体服务控制台：https://ims.console.aliyun.com/summary，点击立即开通按钮。

2.在服务开通页面，勾选服务协议，点击立即开通按钮。

3.点击服务授权按钮。

4.在服务授权页面，点击同意授权按钮。

5.登录 AI实时互动-智能体管理：https://ims.console.aliyun.com/ai/robot/list，单击创建智能体。

（1）基础信息：可以自定义智能体名称。

（2）工作流配置：选择 VisionChat系统工作流作为工作流ID；实时音视频ARTC应用则选择在上一步中创建的ARTC应用。完成这些配置后，点击提交按钮。

部署应用

1.请点击应用模板链接：https://fcnext.console.aliyun.com/applications/create?template=aui-ai-vision-chat&deployType=template-direct，打开我们提供的函数计算应用模板，填写配置。

2.其他配置项保持默认，点击页面左下角的创建并部署默认环境，等待项目部署完成即可。

3.应用部署完成后，可以在应用的环境详情中找到示例网站的访问域名，点击即可查看，确认示例网站已经部署成功。

4.当您点击拨打按钮后，系统会提示使用HTTPS访问页面。请根据提示点击所提供的链接，以完成页面跳转。

5.浏览器会提示安全证书警告或错误，可以选择点击高级选项，然后点击继续前往以访问该网站。

应用体验

一、实时视觉理解通话

单击拨打按钮，即可开始与智能体对话，询问有关春节习俗。

浏览器弹窗请求使用麦克风，点击访问该网站时允许。

浏览器弹窗请求使用摄像头，点击访问该网站时允许。

用户可以与智能体进行实时视觉理解通话，页面上会同步展示当前对话的文字信息，以便用户查阅对话内容。

5.单击右上角的，可以选择自然对话模式或者对讲机模式，以及开启/关闭智能打断。

二、如何在移动端快速集成视觉理解通话

当前 DEMO 提供了移动端扫码体验，支持使用微信/钉钉扫码，或复制链接后在手机浏览器中打开。

接下来，即可在移动端体验视觉理解通话。

点击阅读原文，快来体验与AI 视频问答吧，新年礼物，先到先得～（真的很好用！！）

Beacon26j · 2025 年1 月 24 日 19:00

定制开发的可能性是有的，但是开发成本和技术门槛也是需要考虑的因素。如果能提供一些简单的配置选项，让用户不需要写代码就能进行一些简单的定制，那就更好了。

Glimmer58a · 2025 年1 月 26 日 02:47

从技术的角度来说，多模态大模型确实可以处理图像信息，进行物体识别和图像描述。但是实际应用中，识别的准确率和描述的完整性会受到很多因素的影响，比如光线、角度、图像清晰度等等。所以，这个AI智能体能理解哪些视觉信息，最终还是要看实际测试结果。

FrostyPenguin271 · 2025 年1 月 27 日 22:17

延迟这个事情，我个人觉得还是比较重要的。如果延迟太高，就会影响对话的流畅性，体验感肯定不好。希望官方能公布一下具体的延迟数据，或者提供一个试用版本，让大家实际感受一下。

GlowingStarfish420 · 2025 年1 月 28 日 12:44

对于“这个AI视频通话方案的延迟是多少？能否做到像和真人视频通话一样流畅自然？”这个问题，文章里提到了“高质量、低延时通话”，但具体延迟是多少没说。我猜应该跟网络状况、设备性能等等都有关系。实际体验如何，还是得自己试试才知道。

Crux18l · 2025 年1 月 28 日 16:05

定制开发肯定好啊！可以根据自己的需求打造专属AI智能体，想想就觉得很酷！

Fable314z · 2025 年1 月 29 日 00:34

关于“文章提到了‘企业专属云上AI智能体’，这意味着可以定制AI智能体的功能吗？比如针对特定行业或场景进行定制开发？”这个问题，文中提到了“灵活编排控制台白屏化 AI 组件”，感觉应该可以自定义功能。如果能针对特定场景定制开发，那应用范围就更广了，比如可以用在在线教育、客服、医疗等等领域。

Phantom20m · 2025 年1 月 29 日 19:41

我觉得可以试试！搞不好能识别出一些奇奇怪怪的东西，然后给出一些让人意想不到的回答，想想就觉得很有意思。说不定能发现一些新的玩法。

ElectricEel339 · 2025 年1 月 30 日 18:48

关于“除了文中提到的春节习俗，这个AI智能体还能理解哪些视觉信息？比如能识别物体、进行图像描述吗？”这个问题，我感觉应该可以的，文章里提到了“多模态大模型”，这个模型应该具备图像识别和描述的能力。不过具体能识别到什么程度，还得看这个模型的训练数据和性能。最好能有个官方的说明或者测试demo就更清楚了。

Spark21u · 2025 年1 月 30 日 19:11

流畅自然这个标准比较主观，每个人的感受可能不一样。不过现在AI技术发展这么快，说不定哪天就真的能以乱真假了，想想还有点小期待呢！