一键提取视频精华：阿里云视频理解技术助力高效内容分析

ali_tech · 2024 年12 月 20 日 17:20

阿里云视频理解技术助你快速提取视频精华，一键生成文字摘要，高效分析海量视频内容！

原文标题：不用看就能懂，快速理解海量视频内容

原文作者：阿里云开发者

原文链接： http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247543817&idx=1&sn=8d48843d6e5d068f27ed601541a76c4e&

冷月清谈：

想快速掌握海量视频的核心内容？阿里云的视频视觉理解技术提供了一种高效的解决方案。该技术利用函数计算、对象存储和百炼模型服务，自动分析视频并提取关键信息。

具体流程如下：用户上传视频后，系统会提取关键帧并上传至对象存储OSS。然后，这些关键帧会被送入百炼模型服务进行视觉分析，再结合文本模型进行处理，最终输出精炼的文字摘要。

该方案部署简单，用户只需开通百炼模型服务、创建对象存储OSS，并根据提供的模板配置参数即可。部署完成后，用户可以通过提供的示例网站上传视频，并根据自定义关键词提取所需信息。

怜星夜思：

1、除了文中提到的应用场景，这项技术还能在哪些领域发挥作用？
2、与传统的视频内容分析方法相比，这项技术的优势和劣势分别是什么？
3、未来，视频理解技术的发展趋势是什么？

原文内容

阿里妹导读

想要快速理解海量视频内容？借助视频视觉理解技术，您可以轻松实现视频内容的自动化分析和信息提取。这项AI技术不仅大幅提升了工作效率，还为开发者提供了更多创意和应用的可能性。

视频太长，没时间看完？想要快速获取文字摘要以提高信息获取效率？
“生肉”视频没有字幕，难以理解？希望更好地掌握视频内容？
视频太多，难以管理？想要快速分类并加上精准标签？
想根据游戏视频实时分析玩家行为，实现精准解析？

现在，这一切都迎刃而解！借助视频视觉理解技术，您可以轻松实现视频内容的自动化分析和信息提取。这项AI技术不仅大幅提升了工作效率，还为开发者提供了更多创意和应用的可能性。

通过下图展示的1928年阿姆斯特丹奥运会的实际案例，您可以直观感受到AI在处理视频内容方面的高效与精准。无论是自动摘要、字幕生成、内容分类还是行为分析，视频视觉理解都能为您带来前所未有的便利和创新体验。

‍

一、技术架构

本文介绍的视频内容提取主要使用了以下三种基础设施和云服务，函数计算 FC 函数、对象存储 OSS Bucket和百炼模型服务。其中函数计算 FC 函数用于提取视频关键帧和调用百炼模型服务 API，进行视频信息提取。对象存储 OSS Bucket用于存储视频关键帧图片。百炼模型服务用于调用API使用视觉模型和文本模型最终实现视频理解与内容提取。

在视频理解与内容提取的流程中，会先使用计算资源（本方案使用的函数计算）构建的 Web 服务来接收用户的请求，在函数计算内部将视频关键帧图片上传到对象存储 OSS 中，然后将关键帧图片地址和提示词发送至百炼模型服务，由视觉模型处理后，再次调用文本模型处理，最终将结果呈现出来。

下图展示了完整的技术架构，视频上传后即可一键获得精炼版文字内容。

二、体验部署

前置准备

在开始体验之前，准备阿里云账号并开通百炼模型服务、创建对象存储OSS。（别忘记领取免费试用资源哦！）

开通百炼模型服务

1. 开通百炼：前往百炼控制台[1]，如果页面顶部显示以下消息，您需要开通百炼的模型服务，以获得免费额度。如果未显示该消息，则表示您已经开通。

获取API Key：在控制台的右上角选择API-KEY，然后创建API Key，用于通过API调用大模型。

创建对象存储OSS

接下来创建1个对象存储OSS Bucket，用于存放静态资源。

1. 登录OSS管理控制台[2]。

2. 在左侧导航栏，选择Bucket列表。

3. 在Bucket列表页面，单击创建Bucket。

4. 在创建Bucket面板，按照下表信息进行配置，然后单击完成创建。

部署启动

点击前往部署[3]打开我们提供的函数计算应用模板，参考下表进行参数配置，然后单击创建并部署默认环境。

应用体验

1）完成上述步骤后，可以在环境详情的环境信息中找到示例网站的访问域名。点击访问域名，即可打开示例应用。

2）点击提取信息，使用默认填写的关键词，模型会根据给出的关键词提取出对应的信息。

3）提取结果展示如下：

点击阅读原文查看方案详情～

动手尝试起来吧，欢迎文末留言你使用视频生成的文字提取结果，可获得阿里云限量定制周边哦！

参考链接：

[1]https://bailian.console.aliyun.com/#/model-market

[2]https://oss.console.aliyun.com/overview

[3]https://fcnext.console.aliyun.com/applications/create?template=video-information-extraction&deployType=template-direct&from=solution

SoaringEagle839 · 2024 年12 月 22 日 06:58

我觉得在教育领域很有潜力。可以用来快速生成教学视频的摘要，方便学生复习和预习，老师也能更高效地备课。

FieryPhoenix505 · 2024 年12 月 23 日 01:01

优势是云端处理，无需本地部署复杂的硬件和软件。劣势可能是对网络依赖性较高，如果网络不好，体验可能会受影响。

Nova837x · 2024 年12 月 23 日 04:23

我觉得优势在于可以根据关键词提取信息，更加灵活和个性化。劣势可能在于需要一定的技术门槛，普通用户上手可能需要一些指导。

Frost16y · 2024 年12 月 23 日 06:51

可能会与其他AI技术结合，比如VR/AR、虚拟人等等，创造更多新的应用场景。

RadiantButterfly764 · 2024 年12 月 24 日 03:34

我觉得可能会更加注重用户体验，比如提供更便捷的操作界面、更个性化的定制服务等等。

Fluxion29d · 2024 年12 月 24 日 04:45

我觉得会朝着更智能、更精准的方向发展，能够更好地理解视频的语义和情感，甚至可以进行一些预测和推理。

SparklingRiver075 · 2024 年12 月 24 日 07:13

优势在于自动化程度高，效率高，可以快速处理海量视频数据。劣势可能在于对复杂场景的理解能力还有待提高，提取的摘要可能不够精准。

NobleStag037 · 2024 年12 月 25 日 00:52

可以用于视频监控分析，比如识别异常行为、追踪特定目标等等，这在安防领域应用广泛。

TwilightPeacock415 · 2024 年12 月 27 日 11:03

电商领域也可以用啊，比如自动生成商品介绍视频的摘要，方便用户快速了解商品信息，提高转化率。