OpenMontage:把 Claude Code / Cursor 变成 AI 视频制片厂,登顶 GitHub Trending
OpenMontage:把 Claude Code / Cursor 变成 AI 视频制片厂,登顶 GitHub Trending #1
一、想做一条 60 秒短视频,你还在手动剪吗?
“帮我把昨天录的播客剪成十条短视频”—— 这种事在过去几年里一直是品牌方、独立创作者、知识 IP 团队的头号痛点。要做的事情其实很清楚:
- 听一遍素材,挑出金句;
- 写脚本、加配音、找背景音乐;
- 做几条封面、加字幕、挑 B-roll;
- 调色、渲染、导出 9:16、1:1、16:9 三个版本。
每个环节都得换一个工具 —— 剪映、Premiere、CapCut、ElevenLabs、Pexels、Midjourney、Whisper…… 换工具是小事,真正烧时间的是” 上下文切换 + 决策疲劳”:剪到第三条就忘了第一条用了什么调色脚本;BGM 配到一半忘了脚本还剩几秒;最后发现某条短视频里有三段不同风格的字幕。
今天登上 GitHub Trending 第一名的 OpenMontage(12,283 stars,AGPL v3)想做的事情,就是把这整套流水线塞进你的 AI 编程助手。你只负责一句话描述需求:
“Make a 60-second animated explainer about how neural networks learn.”
剩下的 —— 调研、脚本、配音、配乐、镜头、字幕、渲染、自检 —— 全部由 Claude Code / Cursor / Copilot / Windsurf / Codex 串起来自动跑完。
二、这不是又一个”AI 视频生成器”
把 OpenMontage 当成” 又一款 Sora / Veo / Runway 替代品” 是最大的误解。它不生成模型,它的核心是编排。
它的自我定位很直接:”World’s first open-source, agentic video production system”—— 全球第一个开源的、代理式(agentic) 视频制片系统。注意”agentic” 这个修饰词:和”AI 视频” 不一样,agentic 强调的是让一个 AI Agent 端到端地做完一整件事,而不是生成某一段素材就交给人类接管。
OpenMontage 的设计哲学可以浓缩成三句话:
- “No-code orchestrator, agent IS the orchestrator”—— 它没有一个 Python 主程序在调度一切;你的 Claude Code / Cursor 本身就是调度器。Python 脚本只提供” 工具”(tools/)和” 知识”(skills/),所有决策由 Agent 自己读 manifest、做 proposal、调用工具、提交人类审批。
- “Reference-driven creation”—— 你可以直接贴一个 YouTube Short / TikTok / 小红书链接,告诉它” 做一条类似的,但讲 CRISPR”。Agent 会分析原片的节奏、hook、镜头、风格,然后给出 2-3 个差异化方案 + 成本估算 + 样片 —— 先让你拍板,再开干。
- “No vendor lock-in”—— 视频生成、图像、TTS、音乐、配音、字幕,每个环节都同时支持云端付费 API 和本地开源模型;7 维评分(task fit /output quality /control/reliability /cost/latency /continuity)的 provider selector 自动挑最合适的,你想换就换。
这三个设计放在一起,让 OpenMontage 和市面上所有” 一键 AI 视频” 工具拉开了代差:它不是一个 SaaS 产品,而是一份给 AI Agent 的剧本。
三、核心功能:12 条产线 / 52 个工具 / 500+ 技能
OpenMontage 把整个视频制作流程拆解成一份” 分层知识架构”:
1 | Layer 1: tools/ + pipeline_defs/ → "有什么"(可执行能力) |
第一层是 48 个 Python 工具 + 12 条 YAML 产线定义;第二层是 Markdown 写的” 导演技能”,教 Agent 怎么按 OpenMontage 的标准干活;第三层是 FFmpeg、Remotion、WhisperX 等外部技术的深度知识包,工具按需声明依赖。
12 条产线覆盖了视频生产几乎所有形态:
| 产线名 | 产出 | 典型场景 |
|---|---|---|
| Animated Explainer | AI 生成的解释视频 | 教育内容、教程 |
| Animation | 动效 + 动态排版 | 短视频、产品演示 |
| Avatar Spokesperson | 数字人讲解 | 企业培训、公告 |
| Cinematic | 预告片、海报级短片 | 品牌片、概念片 |
| Clip Factory | 一条长视频 → 十条竖屏 | 播客复用、内容矩阵 |
| Documentary Montage | 真实素材剪辑的视频随笔 | 纪录片、情绪短片 |
| Hybrid | 自有素材 + AI 补充 | 升级现有素材 |
| Localization & Dub | 字幕、配音、翻译 | 多语言分发 |
| Podcast Repurpose | 播客金句 → 短视频 | 播客营销 |
| Screen Demo | 软件录屏美化 | 产品演示、文档 |
| Talking Head | 出镜人讲解视频 | 分享、Vlog |
每条产线都遵循统一的七阶段流:research → proposal → script → scene_plan → assets → edit → compose。在动笔写第一个字之前,Agent 会先跑 15-25 次网页搜索(YouTube / Reddit / Hacker News / 学术源),把数据点、用户问题、热门角度、视觉参考全部拉齐,整理成结构化研究简报 —— 这一步直接把所有”AI 视频最爱编造事实” 的毛病掐死。
52 个工具覆盖了从素材到成片的完整链路:
- 视频生成(14 个):Kling、Runway Gen-4、Google Veo 3、Grok Imagine、Higgsfield、HeyGen;本地有 WAN 2.1、Hunyuan、CogVideo、LTX-Video;素材库有 Pexels、Pixabay、Wikimedia Commons。
- 图像生成(10 个):FLUX、Imagen 4、Grok Imagine、DALL-E 3、Recraft、本地 Stable Diffusion;素材有 Pexels、Pixabay、Unsplash;还有 ManimCE 做数学动画。
- TTS(4 个):ElevenLabs、Google TTS(700+ 音色、50+ 语言)、OpenAI TTS、本地 Piper(完全离线免费)。
- 音乐 / 音效:Suno AI(最长 8 分钟、含人声和歌词)、ElevenLabs Music、ElevenLabs SFX。
- 后期(永远免费):FFmpeg 编码、字幕烧录、音频混音、Real-ESRGAN 升频、rembg 抠图、CodeFormer / GFPGAN 修脸。
- 分析:WhisperX 词级时间戳字幕、场景检测、关键帧采样、CLIP/BLIP-2 视觉理解。
- 数字人 / 口型同步:SadTalker / MuseTalk 出镜、Wav2Lip 唇音同步。
- 合成引擎:Remotion(React 写法,适合数据驱动场景)、HyperFrames(HTML/CSS/GSAP 写法,适合动态排版)、FFmpeg(兜底)。
500+ Agent Skill 包括产线导演技能、创意技法、质检清单,以及 FFmpeg / Remotion / Whisper 等技术包。Agent 不是” 按字符串匹配” 调用,而是真正读完一份 Markdown skill 文档,知道” 为什么这样用” 再动手。
四、零 API Key 也能拍出 60 秒短片
最让人惊喜的部分 ——OpenMontage 明确支持完全离线的零成本路径。
1 | # 一句话启动: |
Agent 会自动按这条路径开干:
- 配音:Piper TTS(本地、离线、听起来像真人);
- 素材:Archive.org + NASA + Wikimedia Commons(免费开放档案 + 科教素材 + 纪录片质感);
- 画面:Stable Diffusion 本地生图,或者直接抓 Pexels / Unsplash / Pixabay 的免费版权图(开发者 key 免费申请);
- 合成:Remotion 把静态图 + 字幕 + 转场 + 镜头运动编排成片;
- 字幕:自动词级时间戳;
- 后期:FFmpeg 编码、字幕烧录、音频混音。
README 里给出的一个例子:一条 12 帧 FLUX 生成的吉卜力风动画 + 视差叠化 + 镜头平移 + 萤火虫花瓣粒子 + 环境音效 + 电影感渐晕 —— 总成本 $0.15,不调用任何视频生成 API。另一条 Pixar 风格的”Last Banana”60 秒短片,用 6 段 Kling v3 视频 + Google Chirp3-HD 配音 + 免版税钢琴 + 词级字幕,总成本 $1.33。
另一个更激进的路径 —— 纪录片混剪 —— 完全不依赖 AI 生成画面:
“Make a 90-second documentary montage about what a city feels like at 4am. Use real footage only, no narration, elegiac tone.”
Agent 会从 Archive.org、NASA、Wikimedia Commons 建一个 CLIP 可检索的语料库,挑出真实运动镜头,按主题、时间、镜头类别剪辑、配乐、调色,渲染出一条真正的纪录片式短片 —— 不是” 用几张静态图加 Ken Burns 假装在动” 那种骗术。
五、实战示例:10 分钟跑完一条 60 秒科普短片
环境要求:Python 3.10+、FFmpeg、Node.js 18+、一个能跑命令的 AI 编程助手(Claude Code 体验最佳)。
1 | # 1. 克隆项目并初始化 |
接下来在 Claude Code 中输入:
1 | Make a 60-second animated explainer about how CRISPR gene editing works, |
Agent 的执行流程大致是:
1 | 1. 读 manifest → 选 "Animated Explainer" 产线 |
整个过程你只在三个节点需要拍板:
- 选提案(pick which concept)
- 批预算(”cost looks ok, proceed”)
- 看成片(approve 或 request changes)
如果中间某一步 Agent 觉得不确定,它会停下来把决策点列出来给你看,不会闷头把视频做完再让你全盘接受。
六、适用场景和限制
适合谁:
- 内容矩阵 / 短视频批量生产团队(一条 2 小时播客 → 10 条短视频,Clip Factory 产线);
- 教育博主、自媒体创作者,想把抽象概念做成可视化解释视频;
- 初创团队做产品 Demo / 品牌片,没有专职视频团队;
- AI Agent 开发者,研究” 怎么把多个工具 + 长流程任务 + 人类审批” 编排好。
目前的限制:
- AGPL v3 协议:商业闭源产品集成需要谨慎评估;但作为内部工具、个人项目、学习研究完全 OK。
- 云端 API 成本虽然给了 $0.15 起步的最低价,但要做大量高质量视频仍然要烧钱 ——Suno AI / ElevenLabs / FLUX 的单价加起来不算便宜。
- 本地离线路径质量上限有限:Piper TTS 的配音听感不如 ElevenLabs;本地 Stable Diffusion 生图质量比不上云端 FLUX / Imagen 4;零成本适合” 练手 + 出片速度”,追求顶级观感仍需付费 API。
- 产线复杂程度:12 条产线、52 个工具、500+ skill 是” 能做事多” 的代价,新人上手需要 1-2 个项目熟悉 manifest /skill 体系。
- 沙箱与安全:因为 Agent 可以执行 shell 命令和写文件,官方强烈建议在本地可信网络(127.0.0.1 loopback)部署 ——README 里有专门的 Security Notice 章节。如果你打算放到公网,请务必加 IP 白名单 + 反向代理预认证 + 网络隔离。
七、为什么这个项目值得关注
OpenMontage 上线才不到三个月(仓库创建于 2026-03-29),今天登顶 GitHub Trending #1、12k+ stars、AGPL 开源 —— 这个速度本身就说明了它踩中了一个真实需求:把 AI 编程助手当成” 万能 Agent 运行时”。
昨天聊 DeerFlow 时我们写过:”Agent 的下一步不是更强的模型,而是更好的 Harness”。OpenMontage 给出了 Harness 的一个具体范式 —— 把 Python 当工具库,把 Markdown 当 skill 文档,把 YAML 当 manifest,把你已经在用的 AI 编程助手当调度器。这套架构不只能做视频,把它换一套工具就能做播客自动化、做长报告、做数据可视化 —— 本质上是” 通用 Agent 制片框架”。
更让我欣赏的是它的工程态度:每一步都有自检、每一次决策都有日志、每一笔花费都有预估。这不是” 调一次模型拿个结果” 的玩具,而是一份真正能进入生产环境的制片手册。
如果你已经在用 Claude Code 或 Cursor,强烈建议花 30 分钟跑一下 make demo,零成本产出一条样片。看完那条 60 秒成片,你会开始重新想象 AI Agent 能接管的工作流还有多远。
项目地址:github.com/calesthio/OpenMontage
官网与样片:github.com/calesthio/OpenMontage
协议:AGPL v3