30k Star 的 PPT Master:让 AI 直接吐出「能改的」PPTX,告别一张图糊弄人的时代
开头:你有没有被 AI 生成的 PPT “骗” 过?
你让 ChatGPT 或者 Gamma 帮你把一份季度报告做成 PPT,出来的页面看起来挺漂亮 —— 配色舒服、排版规整、信息密度也还行。你兴冲冲下载下来准备改两行字、加一张图,结果右键点开一看:傻眼了。
每一页都是一张图。
你想改标题里的 “Q3 增长 23%” 这几个字?得打开 Photoshop(或者 Figma)去改原图,再重新导出整页。换个对齐方式?得改整张图。想抠出那张折线图单独复用?抠不出来,因为图里所有元素都” 糊” 在同一个位图上。
这就是过去三年 AI 生成 PPT 的通病:看着像 PPT,本质是 PNG 合集。工具默认走”HTML 转 PDF / 转图片” 路线 —— 快、稳、视觉好看,但完全牺牲了” 可编辑性”。而我们对 PPT 的核心诉求,恰恰是” 做出来之后还要改”。
GitHub 上最近冒出来一个项目 hugohe3/ppt-master,直接对着这个痛点下刀:输出的是真正的 PowerPoint 原生 DrawingML 形状、文本框、图表、动画,每一页里的每一个元素,你点开就能改。项目 30k+ stars,836 次 commit,MIT 协议,6 月 11 号起在 GitHub Trending Python 榜霸榜 #3,到现在热度还没退。
项目背景:解决「AI 出图不给出 PPT」的根本问题
ppt-master 的作者 Hugo He 是一位注册会计师(CPA)+ 注册资产评估师(CPV)背景的财务人,在工作里被” 做 PPT” 这件事反复折磨。他做这件事的动机在 README 里写得很直白:
“This is a tool, not a wishing well.”
不要指望它一次给你一份完美无缺的成品。它的真正价值是把” 做 PPT 里最烦的那 80%” 替你干掉;剩下 20% 的润色是你的事 —— 而之所以要给你一份原生可编辑的 PPT,正是因为你还要继续改。
为什么这件事以前没人做对?
回顾一下 AI 出 PPT 这几年的几条技术路线,每条都有硬伤:
| 路线 | 输出 | 能不能在 PowerPoint 里逐元素改? |
|---|---|---|
| 模板填充 | 用现成 .pptx 模板,把文字填进去 | 部分可以,受模板限制 |
| 整页出图(Gamma、Beautiful.ai 早期、ChatGPT 的” 做幻灯片” 插件) | 每页一张高清 PNG | ❌ 完全改不了 |
| HTML 演示稿(Slidev、revealjs、Marp) | 浏览器里跑 | ❌ 这不是 PPTX |
| 原生可编辑(ppt-master 走的路线) | 真实的 DrawingML 形状、文本框、图表、动画 | ✅ 想改哪里点哪里 |
第四条路之所以难,是因为:PowerPoint 文件本质是 ZIP 打包的 XML(.pptx = DrawingML + 关系图 + 媒体文件),要让 LLM “写出” 一份结构合规、跨 Office 版本不爆炸、动画时序还对得上的 .pptx,工程量巨大。
ppt-master 选择了一条更聪明的路:自己不训练模型,而是把这件事拆成” 工作流(harness)” + “模型(model)”。作者把这个公式写在了 README 的第一行:
harness + model = agent
工具负责流程,模型负责质量。这就把”AI 做 PPT” 从一个黑盒变成了一个可调试、可替换、可升级的工程问题。
核心功能亮点
下面这五点,是 ppt-master 真正区别于同类工具的地方。
1. 原生 DrawingML 输出,PowerPoint 里能改
这是项目的核心卖点。打开它生成的 .pptx,右键 → 编辑 任意文本框,文字真的在那里。点击 任意图表,可以改数据源。动画窗格 里能看到所有进入 / 退出动画,可以逐个调整时长。
实现方式:项目维护了一份基于 python-pptx 的封装,让 LLM 输出的” 页面描述” 被转换成 DrawingML 的 <p:sp>、<p:txBody>、<a:animation> 节点,最后打包成合规的 .pptx 文件。
2. Claude Code / Cursor / VS Code 全场景适配
它不是一个” 独立 app”,而是一个 Skill—— 可以装进你现在已经用的 AI IDE 里:
- IDE 原生 Agent:VS Code、Cursor、Trae、Codebuddy、Windsurf、Void、Zed
- IDE 插件 / 扩展:GitHub Copilot、Claude Code(VS Code / JetBrains)、Cline、Continue、Roo Code
- CLI Agent:Claude Code CLI、Codex CLI、Aider、Gemini CLI
安装方式有三种:
1 | # 方式 A:直接下载 ZIP 解压 |
3. “模板填充” 工作流:把内容塞进你已有的 PPT 模板
很多人其实不缺模板,缺的是把新内容填进老模板的工具。ppt-master 提供了一个独立的 workflow:template-fill-pptx—— 你把现有的 .pptx 丢给 AI,AI 把新内容塞进对应位置,保留原模板的字体、配色、母版结构,而且输出仍然是原生可编辑的 PPTX。
这一招对咨询、投行、销售这类” 公司 PPT 模板神圣不可侵犯” 的岗位来说,是真金白银的省时间。
4. 演讲者备注 + 音频旁白
每一页生成时,AI 会同时给出演讲者备注(speaker notes)。更进一步,备注可以直接转成音频旁白 —— 用 TTS 念出来。配合 PowerPoint 的” 录制幻灯片演示” 功能,基本可以做到给一份大纲 → 出一份带旁白的演示视频。
5. 配图双路径:AI 生成 + Web 搜索
配图这件事,ppt-master 给了两条可混用的路径:
- A) AI 生成:
python3 skills/ppt-master/scripts/image_gen.py调用gpt-image-2(默认推荐,质量最好)或其他支持 OpenAI Image API 的模型 - B) Web 搜索:
image_search.py默认从 Openverse / Wikimedia Commons 抓(零配置),配PEXELS_API_KEY/PIXABAY_API_KEY可以拉到 Pexels / Pixabay 的高质量 CC0 图
并且默认走” 质量优先” 授权链:CC0 → Public Domain → Pexels/Pixabay → CC BY → CC BY-SA,避免你拿一张” 禁止商业使用” 的图进季报。
实战示例:把一篇博客变成 10 页 PPT
下面走一遍最常见的场景:把一篇长文 / 报告转成一份 10 页的演示稿。
步骤 1:准备素材
1 | # 创建项目目录 |
步骤 2:在 AI IDE 里开聊
打开 Claude Code(或 Cursor / VS Code + Copilot),进入 ppt-master 的 skill 目录,然后:
1 | You: Please create a PPT from projects/q2-report/sources/q2-financial-report.pdf |
AI 会先跟你确认设计规格:
1 | AI: Sure. Let's confirm the design spec: |
步骤 3:AI 跑工作流
你确认之后,AI 会自动:
- 读 PDF(支持多页 PDF + OCR 扫描件)
- 切分章节、提炼每页核心信息
- 选模板 / 配色 / 字体
- 调用
image_gen.py配图(如果需要) - 用 python-pptx 写出 DrawingML 节点
- 打包成 .pptx,存到
exports/q2-financial-report_<timestamp>.pptx - 同时在
backup/<timestamp>/svg_output/留一份 SVG 快照
步骤 4:在 PowerPoint 里改
打开生成的 .pptx,一切元素都能改:
- 改标题文字 → 双击直接编辑
- 调字号 → 选中按 Ctrl+]
- 换图表数据 → 右键 → 编辑数据
- 调动画时序 → 动画窗格
- 换主题色 → 设计 → 变体
这是用 Gamma 或 ChatGPT 出图式 PPT 永远做不到的事。
进阶:用自己公司的模板
1 | # 假设你公司模板在 ~/Templates/company-master.pptx |
AI 会调用 template-fill-pptx workflow,只动数据槽,保留母版和配色。导出的 PPT 直接拿去给老板看,连” 为什么用了别的字体” 的解释都省了。
适用场景与限制
适合谁用
- 咨询 / 投行 / 审计:周报月报季报一堆,模板神圣不可侵犯,
template-fill-pptx是杀手锏 - 产品 / 运营:PRD、竞品分析、用户调研报告,AI 出 80%,人改 20%
- 学术 / 研究:论文转会议演讲 PPT 不用再从零排版
- 销售 / BD:方案 PPT 需要快速响应客户版本,AI 出初稿 → 销售微调
用之前要知道的几件事
- 模型天花板决定质量上限:作者在 README 里反复强调 —— 便宜的模型出来就是垃圾。想要出” 能直接交给老板” 的成品,建议用 Claude Opus 或 Gemini 3.5 Flash。GPT-4o 出图不错但 PPT 排版一般。
- 必须用 Office 2016+ 打开:用 WPS / Keynote / LibreOffice 打开可能丢动画或排版错位
- 不是” 全自动” 工具:作者写得很诚实,这是 harness,不是 agent。你不能跟它说” 做个完美的 PPT 给 CEO”,它只能帮你做 80%,剩下 20% 是你(人)的事
- 配图一定要用
gpt-image-2或自备素材:默认用 Openverse / Wikimedia Commons 抓的图质量参差,配上 Pexels API Key 会好很多 - 大文档(> 200 页)需要分段处理:单次塞进上下文容易爆,ppt-master 提供分章节处理的 workflow
跟同类工具的对比
| 工具 | 能否逐元素改 | 模板填充 | 模型选择 | 成本 | 开源 |
|---|---|---|---|---|---|
| Gamma | ❌ 整页出图 | ✅ | 固定(自家) | 免费 + 付费 | ❌ |
| Beautiful.ai | 部分 | ✅ | 无(规则引擎) | 付费 | ❌ |
| ChatGPT Slide Plugin | ❌ | ❌ | GPT | ChatGPT Plus | ❌ |
| Marp / Slidev | ✅ 但不是 PPTX | ❌ | 你自己写 | 免费 | ✅ |
| ppt-master | ✅ 原生可编辑 PPTX | ✅ | 你自己挑 | 免费(自付 API) | ✅ MIT |
最后这一行就是 ppt-master 的定位:“我能给你一份真的能在 PowerPoint 里改的 PPTX,模型你随便挑,模板你随便换,我开源 MIT。”
总结
ppt-master 解决了一个被忽视了三年的问题:AI 出 PPT 不是” 渲染出一张好看的图” 就够了,必须让用户拿过去能改、敢改、改得快。
它做对了三件事:
- 选对了输出格式 —— 原生 DrawingML,不是 PNG
- 选对了产品形态 —— 做成 Skill 装进现有 AI IDE,而不是做独立 app
- 选对了边界感 —— 明确说” 我是 harness,不是 agent”,把” 模型上限” 和” 工具流程” 拆开,让用户自己挑 Claude Opus 还是 Gemini 3.5 Flash
30k+ stars、836 次 commit、连续霸榜 GitHub Trending Python 榜前 3—— 这不是靠营销出来的热度,是真的戳中了” 打工人每周被 PPT 折磨” 这个全民痛点。
如果你下周的周报、季报、竞品分析还在从零排版,强烈建议花 10 分钟装一下 ppt-master。安装命令:
1 | git clone https://github.com/hugohe3/ppt-master.git |
然后打开 Claude Code,把一份 PDF 丢给它,让它先帮你做出 80%,剩下 20% 你再亲手改 —— 这才是 AI 时代正确的” 做 PPT” 姿势。
GitHub 地址:https://github.com/hugohe3/ppt-master
在线 Demo:https://hugohe3.github.io/ppt-master/
作者博客 & 文档:见仓库 docs/ 目录