2026 年 3 月更新

支持视频输入的
多模态大模型
资源库

全面梳理各厂商视频理解模型能力,深入探讨口播视频素材处理的实际案例与 Agent Skills,助力团队快速查阅与决策。

8+
覆盖厂商
10+
视频理解模型
4
实战工作流
4
Agent Skills
01
Model Comparison

多模态大模型
能力对比

国内外头部科技企业均已推出具备强大视频理解能力的多模态大模型。这些模型不仅能够逐帧分析视频画面,还能结合音频流进行综合推理。

By
字节跳动
Seedance 2.0 / Seed 2.0
国内

采用统一的多模态音视频联合生成架构,支持文字、图片、音频、视频四种模态输入。允许同时输入多达3段视频和3段音频,具备强大的视觉感知与推理能力。

文本图像音频视频
上下文窗口-
视频能力支持同时输入3段视频+3段音频
官方文档
Al
阿里巴巴
Qwen3.5-Plus / Qwen3-VL
国内

Qwen3.5-Plus 是千问首个原生多模态大模型,支持文本、图像和视频输入。Qwen2.5-VL 更是支持超过1小时的长视频理解,能够精准捕捉视频中的事件。

文本图像视频
上下文窗口128K+
视频能力支持超过1小时长视频理解
官方文档
Go
Google
Gemini 3 / Gemini 2.5 Pro
海外

原生多模态架构,支持高达 2M+ 的上下文窗口。Gemini 2.5 Pro 能够处理最大 2GB 的视频文件,通过处理音频和视觉信息流,实现极高精度的视频内容提取与问答。

文本图像音频视频
上下文窗口2M+
视频能力支持最大2GB视频文件
官方文档
Op
OpenAI
GPT-5 / GPT-4o
海外

GPT-5 具备超过 500B 的参数量和 400K 的上下文窗口,原生支持文本、音频和视觉(包括视频)的综合理解与推理。

文本图像音频视频
上下文窗口400K
视频能力原生视频理解与推理
官方文档
An
Anthropic
Claude Opus 4.5
海外

具备 200K 上下文窗口,支持文本、视觉、音频和代码的输入,在复杂的视频指令遵循方面表现优异。

文本图像音频视频代码
上下文窗口200K
视频能力视频指令遵循
官方文档
Me
Meta
Llama 4 Scout / Maverick
海外

拥有高达 1000 万 Token 的上下文窗口,能够一次性处理数千分钟的视频内容,采用早期融合策略直接将视觉 Token 整合进模型主干。

文本图像视频
上下文窗口10M
视频能力处理数千分钟视频
官方文档
Ba
百度
文心 5.0 (ERNIE 5.0)
国内

原生全模态大模型,采用统一建模技术,将文本、图像、音频、视频联合建模,具备综合的全模态分析能力。

文本图像音频视频
上下文窗口-
视频能力全模态联合建模
官方文档
Zh
智谱 AI
GLM-4.6V / GLM-4V-Plus
国内

GLM-4V-Plus 支持最长达 2 小时的视频理解。GLM-4.6V 则原生支持基于视觉输入的工具调用,能够自动完成复杂的视频分析任务。

文本图像视频
上下文窗口128K
视频能力支持最长2小时视频理解
官方文档

此外,开源社区也涌现了 InternVL 3.0(擅长文档解析)、MiniCPM-V 4.5(移动端优化)以及 DeepSeek-V3.2 等优秀的视觉语言模型,为不同场景提供了更多选择。

02
Workflows

口播视频
处理工作流

利用支持视频输入的多模态大模型,可以极大地提升口播视频的分析、剪辑和二次创作效率。以下是经过验证的实战工作流。

将长视频自动剪辑为短视频的最佳实践。调用视频理解轻应用对口播长视频进行深度分析,提取核心观点并生成短视频脚本,随后自动完成剪辑与合成。

输入口播长视频
qwen-vl-max 视频理解分析
提取核心观点
生成短视频脚本
一键成片自动剪辑
输出精简口播片段
适用场景
将冗长的直播录像或演讲转化为适合短视频平台传播的精简口播片段
查看详细文档
03
Agent Skills

推荐 Agent Skills

在 Manus 平台中更好地处理视频和口播素材,以下 Skills 可以直接导入使用。

社区

YouTube Transcript

youtube-transcript

从 YouTube 视频中提取字幕(Transcript)并准备摘要。

适用场景

快速获取外网口播视频的文案内容,无需下载整个视频文件。

社区

Video Downloader

video-downloader

从 YouTube 及其他平台下载视频,支持自定义画质(1080p, 720p 等)和格式(mp4, webm),也支持仅下载音频(mp3)。

适用场景

在进行视频理解或二次剪辑前,用于获取原始的口播视频素材。

社区

Video Prompting

video-prompting-skill

为视频生成模型(如 Sora, Veo 3, LTX-2 等)起草和优化提示词。

适用场景

提取口播视频文案后,利用 AI 视频生成模型配上 B-roll 或动态背景。

内置

Video Generator

video-generator

专业的 AI 视频制作工作流,涵盖从需求收集、风格定义、分镜规划到参考图生成和最终视频生成的全过程。

适用场景

从零开始,利用 AI 工具制作包含口播、旁白和丰富画面的完整商业短片。

Skills illustration