OpenMontage：把 Claude Code / Cursor 变成 AI 视频制片厂，登顶 GitHub Trending

发表于 2026-06-23 分类于 AI ，开源项目

OpenMontage 是一个开源的"代理式视频制片系统"，把 Claude Code、Cursor、Copilot 等 AI 编程助手变成可编排 12 条产线、52 个工具、500+ 技能的完整视频制片厂。今天 GitHub Trending

一、想做一条 60 秒短视频，你还在手动剪吗？

“帮我把昨天录的播客剪成十条短视频”—— 这种事在过去几年里一直是品牌方、独立创作者、知识 IP 团队的头号痛点。要做的事情其实很清楚：

听一遍素材，挑出金句；
写脚本、加配音、找背景音乐；
做几条封面、加字幕、挑 B-roll；
调色、渲染、导出 9:16、1:1、16:9 三个版本。

每个环节都得换一个工具 —— 剪映、Premiere、CapCut、ElevenLabs、Pexels、Midjourney、Whisper…… 换工具是小事，真正烧时间的是” 上下文切换 + 决策疲劳”：剪到第三条就忘了第一条用了什么调色脚本；BGM 配到一半忘了脚本还剩几秒；最后发现某条短视频里有三段不同风格的字幕。

今天登上 GitHub Trending 第一名的 OpenMontage（12,283 stars，AGPL v3）想做的事情，就是把这整套流水线塞进你的 AI 编程助手。你只负责一句话描述需求：

“Make a 60-second animated explainer about how neural networks learn.”

剩下的 —— 调研、脚本、配音、配乐、镜头、字幕、渲染、自检 —— 全部由 Claude Code / Cursor / Copilot / Windsurf / Codex 串起来自动跑完。

二、这不是又一个”AI 视频生成器”

把 OpenMontage 当成” 又一款 Sora / Veo / Runway 替代品” 是最大的误解。它不生成模型，它的核心是编排。

它的自我定位很直接：”World’s first open-source, agentic video production system”—— 全球第一个开源的、代理式（agentic） 视频制片系统。注意”agentic” 这个修饰词：和”AI 视频” 不一样，agentic 强调的是让一个 AI Agent 端到端地做完一整件事，而不是生成某一段素材就交给人类接管。

OpenMontage 的设计哲学可以浓缩成三句话：

“No-code orchestrator, agent IS the orchestrator”—— 它没有一个 Python 主程序在调度一切；你的 Claude Code / Cursor 本身就是调度器。Python 脚本只提供” 工具”（tools/）和” 知识”（skills/），所有决策由 Agent 自己读 manifest、做 proposal、调用工具、提交人类审批。
“Reference-driven creation”—— 你可以直接贴一个 YouTube Short / TikTok / 小红书链接，告诉它” 做一条类似的，但讲 CRISPR”。Agent 会分析原片的节奏、hook、镜头、风格，然后给出 2-3 个差异化方案 + 成本估算 + 样片 —— 先让你拍板，再开干。
“No vendor lock-in”—— 视频生成、图像、TTS、音乐、配音、字幕，每个环节都同时支持云端付费 API 和本地开源模型；7 维评分（task fit /output quality /control/reliability /cost/latency /continuity）的 provider selector 自动挑最合适的，你想换就换。

这三个设计放在一起，让 OpenMontage 和市面上所有” 一键 AI 视频” 工具拉开了代差：它不是一个 SaaS 产品，而是一份给 AI Agent 的剧本。

三、核心功能：12 条产线 / 52 个工具 / 500+ 技能

OpenMontage 把整个视频制作流程拆解成一份” 分层知识架构”：

1
2
3

Layer 1: tools/ + pipeline_defs/   → "有什么"（可执行能力）
Layer 2: skills/                   → "怎么用"（OpenMontage 自己的规范）
Layer 3: .agents/skills/           → "原理是什么"（外部技术知识）

第一层是 48 个 Python 工具 + 12 条 YAML 产线定义；第二层是 Markdown 写的” 导演技能”，教 Agent 怎么按 OpenMontage 的标准干活；第三层是 FFmpeg、Remotion、WhisperX 等外部技术的深度知识包，工具按需声明依赖。

12 条产线覆盖了视频生产几乎所有形态：

产线名	产出	典型场景
Animated Explainer	AI 生成的解释视频	教育内容、教程
Animation	动效 + 动态排版	短视频、产品演示
Avatar Spokesperson	数字人讲解	企业培训、公告
Cinematic	预告片、海报级短片	品牌片、概念片
Clip Factory	一条长视频 → 十条竖屏	播客复用、内容矩阵
Documentary Montage	真实素材剪辑的视频随笔	纪录片、情绪短片
Hybrid	自有素材 + AI 补充	升级现有素材
Localization & Dub	字幕、配音、翻译	多语言分发
Podcast Repurpose	播客金句 → 短视频	播客营销
Screen Demo	软件录屏美化	产品演示、文档
Talking Head	出镜人讲解视频	分享、Vlog

每条产线都遵循统一的七阶段流：research → proposal → script → scene_plan → assets → edit → compose。在动笔写第一个字之前，Agent 会先跑 15-25 次网页搜索（YouTube / Reddit / Hacker News / 学术源），把数据点、用户问题、热门角度、视觉参考全部拉齐，整理成结构化研究简报 —— 这一步直接把所有”AI 视频最爱编造事实” 的毛病掐死。

52 个工具覆盖了从素材到成片的完整链路：

视频生成（14 个）：Kling、Runway Gen-4、Google Veo 3、Grok Imagine、Higgsfield、HeyGen；本地有 WAN 2.1、Hunyuan、CogVideo、LTX-Video；素材库有 Pexels、Pixabay、Wikimedia Commons。
图像生成（10 个）：FLUX、Imagen 4、Grok Imagine、DALL-E 3、Recraft、本地 Stable Diffusion；素材有 Pexels、Pixabay、Unsplash；还有 ManimCE 做数学动画。
TTS（4 个）：ElevenLabs、Google TTS（700+ 音色、50+ 语言）、OpenAI TTS、本地 Piper（完全离线免费）。
音乐 / 音效：Suno AI（最长 8 分钟、含人声和歌词）、ElevenLabs Music、ElevenLabs SFX。
后期（永远免费）：FFmpeg 编码、字幕烧录、音频混音、Real-ESRGAN 升频、rembg 抠图、CodeFormer / GFPGAN 修脸。
分析：WhisperX 词级时间戳字幕、场景检测、关键帧采样、CLIP/BLIP-2 视觉理解。
数字人 / 口型同步：SadTalker / MuseTalk 出镜、Wav2Lip 唇音同步。
合成引擎：Remotion（React 写法，适合数据驱动场景）、HyperFrames（HTML/CSS/GSAP 写法，适合动态排版）、FFmpeg（兜底）。

500+ Agent Skill 包括产线导演技能、创意技法、质检清单，以及 FFmpeg / Remotion / Whisper 等技术包。Agent 不是” 按字符串匹配” 调用，而是真正读完一份 Markdown skill 文档，知道” 为什么这样用” 再动手。

四、零 API Key 也能拍出 60 秒短片

最让人惊喜的部分 ——OpenMontage 明确支持完全离线的零成本路径。

1 2	# 一句话启动： "Make a 60-second animated explainer about why the sky is blue"

Agent 会自动按这条路径开干：

配音：Piper TTS（本地、离线、听起来像真人）；
素材：Archive.org + NASA + Wikimedia Commons（免费开放档案 + 科教素材 + 纪录片质感）；
画面：Stable Diffusion 本地生图，或者直接抓 Pexels / Unsplash / Pixabay 的免费版权图（开发者 key 免费申请）；
合成：Remotion 把静态图 + 字幕 + 转场 + 镜头运动编排成片；
字幕：自动词级时间戳；
后期：FFmpeg 编码、字幕烧录、音频混音。

README 里给出的一个例子：一条 12 帧 FLUX 生成的吉卜力风动画 + 视差叠化 + 镜头平移 + 萤火虫花瓣粒子 + 环境音效 + 电影感渐晕 —— 总成本 $0.15，不调用任何视频生成 API。另一条 Pixar 风格的”Last Banana”60 秒短片，用 6 段 Kling v3 视频 + Google Chirp3-HD 配音 + 免版税钢琴 + 词级字幕，总成本 $1.33。

另一个更激进的路径 —— 纪录片混剪 —— 完全不依赖 AI 生成画面：

“Make a 90-second documentary montage about what a city feels like at 4am. Use real footage only, no narration, elegiac tone.”

Agent 会从 Archive.org、NASA、Wikimedia Commons 建一个 CLIP 可检索的语料库，挑出真实运动镜头，按主题、时间、镜头类别剪辑、配乐、调色，渲染出一条真正的纪录片式短片 —— 不是” 用几张静态图加 Ken Burns 假装在动” 那种骗术。

五、实战示例：10 分钟跑完一条 60 秒科普短片

环境要求：Python 3.10+、FFmpeg、Node.js 18+、一个能跑命令的 AI 编程助手（Claude Code 体验最佳）。

# 1. 克隆项目并初始化
git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
make setup

# 2. （可选）配置至少一个 API key
# 编辑 .env，至少填 OPENAI_API_KEY 或 ELEVENLABS_API_KEY
# 也可以不填——make setup 已经把零成本路径配好了

# 3. 在 Claude Code / Cursor / Copilot 里输入一句 prompt

接下来在 Claude Code 中输入：

1
2
3

Make a 60-second animated explainer about how CRISPR gene editing works, 
target audience: high school students, fun narrator voice, 
use AI-generated visuals with subtitles.

Agent 的执行流程大致是：

1. 读 manifest → 选 "Animated Explainer" 产线
2. 读 research skill → 跑 15+ 次 web 搜索，整理 CRISPR 的核心机制、安全性争议、教学难点
3. 写 proposal → 三个差异化方向 + 估算时长和成本，请人类选
4. 写脚本 → 60 秒、3 段结构、目标阅读年龄
5. 配声音 → 选 ElevenLabs（或 Piper 离线）+ 调语速
6. 生图 → 选 FLUX（或本地 SD）+ 选 Style playbook
7. 拆镜头 → scene_plan.json，把每张图的出现时长、动效、字幕对齐都排好
8. 合成 → 调 Remotion，输出 1080x1920 竖屏版本
9. 自检 → ffprobe 校验、抽帧核对、音量检测、字幕对齐、delivery promise
10. 渲染 → final.mp4 写到 projects/<name>/renders/

整个过程你只在三个节点需要拍板：

选提案（pick which concept）
批预算（”cost looks ok, proceed”）
看成片（approve 或 request changes）

如果中间某一步 Agent 觉得不确定，它会停下来把决策点列出来给你看，不会闷头把视频做完再让你全盘接受。

六、适用场景和限制

适合谁：

内容矩阵 / 短视频批量生产团队（一条 2 小时播客 → 10 条短视频，Clip Factory 产线）；
教育博主、自媒体创作者，想把抽象概念做成可视化解释视频；
初创团队做产品 Demo / 品牌片，没有专职视频团队；
AI Agent 开发者，研究” 怎么把多个工具 + 长流程任务 + 人类审批” 编排好。

目前的限制：

AGPL v3 协议：商业闭源产品集成需要谨慎评估；但作为内部工具、个人项目、学习研究完全 OK。
云端 API 成本虽然给了 $0.15 起步的最低价，但要做大量高质量视频仍然要烧钱 ——Suno AI / ElevenLabs / FLUX 的单价加起来不算便宜。
本地离线路径质量上限有限：Piper TTS 的配音听感不如 ElevenLabs；本地 Stable Diffusion 生图质量比不上云端 FLUX / Imagen 4；零成本适合” 练手 + 出片速度”，追求顶级观感仍需付费 API。
产线复杂程度：12 条产线、52 个工具、500+ skill 是” 能做事多” 的代价，新人上手需要 1-2 个项目熟悉 manifest /skill 体系。
沙箱与安全：因为 Agent 可以执行 shell 命令和写文件，官方强烈建议在本地可信网络（127.0.0.1 loopback）部署 ——README 里有专门的 Security Notice 章节。如果你打算放到公网，请务必加 IP 白名单 + 反向代理预认证 + 网络隔离。

七、为什么这个项目值得关注

OpenMontage 上线才不到三个月（仓库创建于 2026-03-29），今天登顶 GitHub Trending #1、12k+ stars、AGPL 开源 —— 这个速度本身就说明了它踩中了一个真实需求：把 AI 编程助手当成” 万能 Agent 运行时”。

昨天聊 DeerFlow 时我们写过：”Agent 的下一步不是更强的模型，而是更好的 Harness”。OpenMontage 给出了 Harness 的一个具体范式 —— 把 Python 当工具库，把 Markdown 当 skill 文档，把 YAML 当 manifest，把你已经在用的 AI 编程助手当调度器。这套架构不只能做视频，把它换一套工具就能做播客自动化、做长报告、做数据可视化 —— 本质上是” 通用 Agent 制片框架”。

更让我欣赏的是它的工程态度：每一步都有自检、每一次决策都有日志、每一笔花费都有预估。这不是” 调一次模型拿个结果” 的玩具，而是一份真正能进入生产环境的制片手册。

如果你已经在用 Claude Code 或 Cursor，强烈建议花 30 分钟跑一下 make demo，零成本产出一条样片。看完那条 60 秒成片，你会开始重新想象 AI Agent 能接管的工作流还有多远。

项目地址：github.com/calesthio/OpenMontage
官网与样片：github.com/calesthio/OpenMontage
协议：AGPL v3

OpenMontage：把 Claude Code / Cursor 变成 AI 视频制片厂，登顶 GitHub Trending #1