OpenMontage:把 Claude Code / Cursor 变成 AI 视频制片厂,登顶 GitHub Trending

OpenMontage:把 Claude Code / Cursor 变成 AI 视频制片厂,登顶 GitHub Trending #1

一、想做一条 60 秒短视频,你还在手动剪吗?

“帮我把昨天录的播客剪成十条短视频”—— 这种事在过去几年里一直是品牌方、独立创作者、知识 IP 团队的头号痛点。要做的事情其实很清楚:

  1. 听一遍素材,挑出金句;
  2. 写脚本、加配音、找背景音乐;
  3. 做几条封面、加字幕、挑 B-roll;
  4. 调色、渲染、导出 9:16、1:1、16:9 三个版本。

每个环节都得换一个工具 —— 剪映、Premiere、CapCut、ElevenLabs、Pexels、Midjourney、Whisper…… 换工具是小事,真正烧时间的是” 上下文切换 + 决策疲劳”:剪到第三条就忘了第一条用了什么调色脚本;BGM 配到一半忘了脚本还剩几秒;最后发现某条短视频里有三段不同风格的字幕。

今天登上 GitHub Trending 第一名的 OpenMontage(12,283 stars,AGPL v3)想做的事情,就是把这整套流水线塞进你的 AI 编程助手。你只负责一句话描述需求:

“Make a 60-second animated explainer about how neural networks learn.”

剩下的 —— 调研、脚本、配音、配乐、镜头、字幕、渲染、自检 —— 全部由 Claude Code / Cursor / Copilot / Windsurf / Codex 串起来自动跑完。

二、这不是又一个”AI 视频生成器”

把 OpenMontage 当成” 又一款 Sora / Veo / Runway 替代品” 是最大的误解。它不生成模型,它的核心是编排

它的自我定位很直接:”World’s first open-source, agentic video production system”—— 全球第一个开源的、代理式(agentic) 视频制片系统。注意”agentic” 这个修饰词:和”AI 视频” 不一样,agentic 强调的是让一个 AI Agent 端到端地做完一整件事,而不是生成某一段素材就交给人类接管。

OpenMontage 的设计哲学可以浓缩成三句话:

  1. “No-code orchestrator, agent IS the orchestrator”—— 它没有一个 Python 主程序在调度一切;你的 Claude Code / Cursor 本身就是调度器。Python 脚本只提供” 工具”(tools/)和” 知识”(skills/),所有决策由 Agent 自己读 manifest、做 proposal、调用工具、提交人类审批。
  2. “Reference-driven creation”—— 你可以直接贴一个 YouTube Short / TikTok / 小红书链接,告诉它” 做一条类似的,但讲 CRISPR”。Agent 会分析原片的节奏、hook、镜头、风格,然后给出 2-3 个差异化方案 + 成本估算 + 样片 —— 先让你拍板,再开干。
  3. “No vendor lock-in”—— 视频生成、图像、TTS、音乐、配音、字幕,每个环节都同时支持云端付费 API 和本地开源模型;7 维评分(task fit /output quality /control/reliability /cost/latency /continuity)的 provider selector 自动挑最合适的,你想换就换

这三个设计放在一起,让 OpenMontage 和市面上所有” 一键 AI 视频” 工具拉开了代差:它不是一个 SaaS 产品,而是一份给 AI Agent 的剧本

三、核心功能:12 条产线 / 52 个工具 / 500+ 技能

OpenMontage 把整个视频制作流程拆解成一份” 分层知识架构”:

1
2
3
Layer 1: tools/ + pipeline_defs/   → "有什么"(可执行能力)
Layer 2: skills/ → "怎么用"(OpenMontage 自己的规范)
Layer 3: .agents/skills/ → "原理是什么"(外部技术知识)

第一层是 48 个 Python 工具 + 12 条 YAML 产线定义;第二层是 Markdown 写的” 导演技能”,教 Agent 怎么按 OpenMontage 的标准干活;第三层是 FFmpeg、Remotion、WhisperX 等外部技术的深度知识包,工具按需声明依赖。

12 条产线覆盖了视频生产几乎所有形态:

产线名 产出 典型场景
Animated Explainer AI 生成的解释视频 教育内容、教程
Animation 动效 + 动态排版 短视频、产品演示
Avatar Spokesperson 数字人讲解 企业培训、公告
Cinematic 预告片、海报级短片 品牌片、概念片
Clip Factory 一条长视频 → 十条竖屏 播客复用、内容矩阵
Documentary Montage 真实素材剪辑的视频随笔 纪录片、情绪短片
Hybrid 自有素材 + AI 补充 升级现有素材
Localization & Dub 字幕、配音、翻译 多语言分发
Podcast Repurpose 播客金句 → 短视频 播客营销
Screen Demo 软件录屏美化 产品演示、文档
Talking Head 出镜人讲解视频 分享、Vlog

每条产线都遵循统一的七阶段流:research → proposal → script → scene_plan → assets → edit → compose。在动笔写第一个字之前,Agent 会先跑 15-25 次网页搜索(YouTube / Reddit / Hacker News / 学术源),把数据点、用户问题、热门角度、视觉参考全部拉齐,整理成结构化研究简报 —— 这一步直接把所有”AI 视频最爱编造事实” 的毛病掐死。

52 个工具覆盖了从素材到成片的完整链路:

  • 视频生成(14 个):Kling、Runway Gen-4、Google Veo 3、Grok Imagine、Higgsfield、HeyGen;本地有 WAN 2.1、Hunyuan、CogVideo、LTX-Video;素材库有 Pexels、Pixabay、Wikimedia Commons。
  • 图像生成(10 个):FLUX、Imagen 4、Grok Imagine、DALL-E 3、Recraft、本地 Stable Diffusion;素材有 Pexels、Pixabay、Unsplash;还有 ManimCE 做数学动画。
  • TTS(4 个):ElevenLabs、Google TTS(700+ 音色、50+ 语言)、OpenAI TTS、本地 Piper(完全离线免费)。
  • 音乐 / 音效:Suno AI(最长 8 分钟、含人声和歌词)、ElevenLabs Music、ElevenLabs SFX。
  • 后期(永远免费):FFmpeg 编码、字幕烧录、音频混音、Real-ESRGAN 升频、rembg 抠图、CodeFormer / GFPGAN 修脸。
  • 分析:WhisperX 词级时间戳字幕、场景检测、关键帧采样、CLIP/BLIP-2 视觉理解。
  • 数字人 / 口型同步:SadTalker / MuseTalk 出镜、Wav2Lip 唇音同步。
  • 合成引擎:Remotion(React 写法,适合数据驱动场景)、HyperFrames(HTML/CSS/GSAP 写法,适合动态排版)、FFmpeg(兜底)。

500+ Agent Skill 包括产线导演技能、创意技法、质检清单,以及 FFmpeg / Remotion / Whisper 等技术包。Agent 不是” 按字符串匹配” 调用,而是真正读完一份 Markdown skill 文档,知道” 为什么这样用” 再动手。

四、零 API Key 也能拍出 60 秒短片

最让人惊喜的部分 ——OpenMontage 明确支持完全离线的零成本路径

1
2
# 一句话启动:
"Make a 60-second animated explainer about why the sky is blue"

Agent 会自动按这条路径开干:

  • 配音:Piper TTS(本地、离线、听起来像真人);
  • 素材:Archive.org + NASA + Wikimedia Commons(免费开放档案 + 科教素材 + 纪录片质感);
  • 画面:Stable Diffusion 本地生图,或者直接抓 Pexels / Unsplash / Pixabay 的免费版权图(开发者 key 免费申请);
  • 合成:Remotion 把静态图 + 字幕 + 转场 + 镜头运动编排成片;
  • 字幕:自动词级时间戳;
  • 后期:FFmpeg 编码、字幕烧录、音频混音。

README 里给出的一个例子:一条 12 帧 FLUX 生成的吉卜力风动画 + 视差叠化 + 镜头平移 + 萤火虫花瓣粒子 + 环境音效 + 电影感渐晕 —— 总成本 $0.15,不调用任何视频生成 API。另一条 Pixar 风格的”Last Banana”60 秒短片,用 6 段 Kling v3 视频 + Google Chirp3-HD 配音 + 免版税钢琴 + 词级字幕,总成本 $1.33

另一个更激进的路径 —— 纪录片混剪 —— 完全不依赖 AI 生成画面:

“Make a 90-second documentary montage about what a city feels like at 4am. Use real footage only, no narration, elegiac tone.”

Agent 会从 Archive.org、NASA、Wikimedia Commons 建一个 CLIP 可检索的语料库,挑出真实运动镜头,按主题、时间、镜头类别剪辑、配乐、调色,渲染出一条真正的纪录片式短片 —— 不是” 用几张静态图加 Ken Burns 假装在动” 那种骗术。

五、实战示例:10 分钟跑完一条 60 秒科普短片

环境要求:Python 3.10+、FFmpeg、Node.js 18+、一个能跑命令的 AI 编程助手(Claude Code 体验最佳)。

1
2
3
4
5
6
7
8
9
10
# 1. 克隆项目并初始化
git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
make setup

# 2. (可选)配置至少一个 API key
# 编辑 .env,至少填 OPENAI_API_KEY 或 ELEVENLABS_API_KEY
# 也可以不填——make setup 已经把零成本路径配好了

# 3. 在 Claude Code / Cursor / Copilot 里输入一句 prompt

接下来在 Claude Code 中输入:

1
2
3
Make a 60-second animated explainer about how CRISPR gene editing works, 
target audience: high school students, fun narrator voice,
use AI-generated visuals with subtitles.

Agent 的执行流程大致是:

1
2
3
4
5
6
7
8
9
10
1. 读 manifest → 选 "Animated Explainer" 产线
2. 读 research skill → 跑 15+ 次 web 搜索,整理 CRISPR 的核心机制、安全性争议、教学难点
3. 写 proposal → 三个差异化方向 + 估算时长和成本,请人类选
4. 写脚本 → 60 秒、3 段结构、目标阅读年龄
5. 配声音 → 选 ElevenLabs(或 Piper 离线)+ 调语速
6. 生图 → 选 FLUX(或本地 SD)+ 选 Style playbook
7. 拆镜头 → scene_plan.json,把每张图的出现时长、动效、字幕对齐都排好
8. 合成 → 调 Remotion,输出 1080x1920 竖屏版本
9. 自检 → ffprobe 校验、抽帧核对、音量检测、字幕对齐、delivery promise
10. 渲染 → final.mp4 写到 projects/<name>/renders/

整个过程你只在三个节点需要拍板:

  • 选提案(pick which concept)
  • 批预算(”cost looks ok, proceed”)
  • 看成片(approve 或 request changes)

如果中间某一步 Agent 觉得不确定,它会停下来把决策点列出来给你看,不会闷头把视频做完再让你全盘接受

六、适用场景和限制

适合谁:

  • 内容矩阵 / 短视频批量生产团队(一条 2 小时播客 → 10 条短视频,Clip Factory 产线);
  • 教育博主、自媒体创作者,想把抽象概念做成可视化解释视频;
  • 初创团队做产品 Demo / 品牌片,没有专职视频团队;
  • AI Agent 开发者,研究” 怎么把多个工具 + 长流程任务 + 人类审批” 编排好。

目前的限制:

  • AGPL v3 协议:商业闭源产品集成需要谨慎评估;但作为内部工具、个人项目、学习研究完全 OK。
  • 云端 API 成本虽然给了 $0.15 起步的最低价,但要做大量高质量视频仍然要烧钱 ——Suno AI / ElevenLabs / FLUX 的单价加起来不算便宜。
  • 本地离线路径质量上限有限:Piper TTS 的配音听感不如 ElevenLabs;本地 Stable Diffusion 生图质量比不上云端 FLUX / Imagen 4;零成本适合” 练手 + 出片速度”,追求顶级观感仍需付费 API。
  • 产线复杂程度:12 条产线、52 个工具、500+ skill 是” 能做事多” 的代价,新人上手需要 1-2 个项目熟悉 manifest /skill 体系。
  • 沙箱与安全:因为 Agent 可以执行 shell 命令和写文件,官方强烈建议在本地可信网络(127.0.0.1 loopback)部署 ——README 里有专门的 Security Notice 章节。如果你打算放到公网,请务必加 IP 白名单 + 反向代理预认证 + 网络隔离。

七、为什么这个项目值得关注

OpenMontage 上线才不到三个月(仓库创建于 2026-03-29),今天登顶 GitHub Trending #1、12k+ stars、AGPL 开源 —— 这个速度本身就说明了它踩中了一个真实需求:把 AI 编程助手当成” 万能 Agent 运行时”

昨天聊 DeerFlow 时我们写过:”Agent 的下一步不是更强的模型,而是更好的 Harness”。OpenMontage 给出了 Harness 的一个具体范式 —— 把 Python 当工具库,把 Markdown 当 skill 文档,把 YAML 当 manifest,把你已经在用的 AI 编程助手当调度器。这套架构不只能做视频,把它换一套工具就能做播客自动化、做长报告、做数据可视化 —— 本质上是” 通用 Agent 制片框架”。

更让我欣赏的是它的工程态度:每一步都有自检、每一次决策都有日志、每一笔花费都有预估。这不是” 调一次模型拿个结果” 的玩具,而是一份真正能进入生产环境的制片手册。

如果你已经在用 Claude Code 或 Cursor,强烈建议花 30 分钟跑一下 make demo,零成本产出一条样片。看完那条 60 秒成片,你会开始重新想象 AI Agent 能接管的工作流还有多远。

项目地址:github.com/calesthio/OpenMontage
官网与样片:github.com/calesthio/OpenMontage
协议:AGPL v3