
支持视频输入的
多模态大模型
资源库
全面梳理各厂商视频理解模型能力,深入探讨口播视频素材处理的实际案例与 Agent Skills,助力团队快速查阅与决策。
多模态大模型
能力对比
国内外头部科技企业均已推出具备强大视频理解能力的多模态大模型。这些模型不仅能够逐帧分析视频画面,还能结合音频流进行综合推理。
采用统一的多模态音视频联合生成架构,支持文字、图片、音频、视频四种模态输入。允许同时输入多达3段视频和3段音频,具备强大的视觉感知与推理能力。
Qwen3.5-Plus 是千问首个原生多模态大模型,支持文本、图像和视频输入。Qwen2.5-VL 更是支持超过1小时的长视频理解,能够精准捕捉视频中的事件。
原生多模态架构,支持高达 2M+ 的上下文窗口。Gemini 2.5 Pro 能够处理最大 2GB 的视频文件,通过处理音频和视觉信息流,实现极高精度的视频内容提取与问答。
GPT-5 具备超过 500B 的参数量和 400K 的上下文窗口,原生支持文本、音频和视觉(包括视频)的综合理解与推理。
具备 200K 上下文窗口,支持文本、视觉、音频和代码的输入,在复杂的视频指令遵循方面表现优异。
拥有高达 1000 万 Token 的上下文窗口,能够一次性处理数千分钟的视频内容,采用早期融合策略直接将视觉 Token 整合进模型主干。
原生全模态大模型,采用统一建模技术,将文本、图像、音频、视频联合建模,具备综合的全模态分析能力。
GLM-4V-Plus 支持最长达 2 小时的视频理解。GLM-4.6V 则原生支持基于视觉输入的工具调用,能够自动完成复杂的视频分析任务。
此外,开源社区也涌现了 InternVL 3.0(擅长文档解析)、MiniCPM-V 4.5(移动端优化)以及 DeepSeek-V3.2 等优秀的视觉语言模型,为不同场景提供了更多选择。
口播视频
处理工作流
利用支持视频输入的多模态大模型,可以极大地提升口播视频的分析、剪辑和二次创作效率。以下是经过验证的实战工作流。
将长视频自动剪辑为短视频的最佳实践。调用视频理解轻应用对口播长视频进行深度分析,提取核心观点并生成短视频脚本,随后自动完成剪辑与合成。
推荐 Agent Skills
在 Manus 平台中更好地处理视频和口播素材,以下 Skills 可以直接导入使用。
YouTube Transcript
youtube-transcript从 YouTube 视频中提取字幕(Transcript)并准备摘要。
快速获取外网口播视频的文案内容,无需下载整个视频文件。
Video Downloader
video-downloader从 YouTube 及其他平台下载视频,支持自定义画质(1080p, 720p 等)和格式(mp4, webm),也支持仅下载音频(mp3)。
在进行视频理解或二次剪辑前,用于获取原始的口播视频素材。
Video Prompting
video-prompting-skill为视频生成模型(如 Sora, Veo 3, LTX-2 等)起草和优化提示词。
提取口播视频文案后,利用 AI 视频生成模型配上 B-roll 或动态背景。
Video Generator
video-generator专业的 AI 视频制作工作流,涵盖从需求收集、风格定义、分镜规划到参考图生成和最终视频生成的全过程。
从零开始,利用 AI 工具制作包含口播、旁白和丰富画面的完整商业短片。


