30k Star 的 PPT Master:让 AI 直接吐出「能改的」PPTX,告别一张图糊弄人的时代

开头:你有没有被 AI 生成的 PPT “骗” 过?

你让 ChatGPT 或者 Gamma 帮你把一份季度报告做成 PPT,出来的页面看起来挺漂亮 —— 配色舒服、排版规整、信息密度也还行。你兴冲冲下载下来准备改两行字、加一张图,结果右键点开一看:傻眼了。

每一页都是一张图

你想改标题里的 “Q3 增长 23%” 这几个字?得打开 Photoshop(或者 Figma)去改原图,再重新导出整页。换个对齐方式?得改整张图。想抠出那张折线图单独复用?抠不出来,因为图里所有元素都” 糊” 在同一个位图上。

这就是过去三年 AI 生成 PPT 的通病:看着像 PPT,本质是 PNG 合集。工具默认走”HTML 转 PDF / 转图片” 路线 —— 快、稳、视觉好看,但完全牺牲了” 可编辑性”。而我们对 PPT 的核心诉求,恰恰是” 做出来之后还要改”。

GitHub 上最近冒出来一个项目 hugohe3/ppt-master,直接对着这个痛点下刀:输出的是真正的 PowerPoint 原生 DrawingML 形状、文本框、图表、动画,每一页里的每一个元素,你点开就能改。项目 30k+ stars,836 次 commit,MIT 协议,6 月 11 号起在 GitHub Trending Python 榜霸榜 #3,到现在热度还没退。

项目背景:解决「AI 出图不给出 PPT」的根本问题

ppt-master 的作者 Hugo He 是一位注册会计师(CPA)+ 注册资产评估师(CPV)背景的财务人,在工作里被” 做 PPT” 这件事反复折磨。他做这件事的动机在 README 里写得很直白:

“This is a tool, not a wishing well.”

不要指望它一次给你一份完美无缺的成品。它的真正价值是把” 做 PPT 里最烦的那 80%” 替你干掉;剩下 20% 的润色是你的事 —— 而之所以要给你一份原生可编辑的 PPT,正是因为你还要继续改

为什么这件事以前没人做对?

回顾一下 AI 出 PPT 这几年的几条技术路线,每条都有硬伤:

路线 输出 能不能在 PowerPoint 里逐元素改?
模板填充 用现成 .pptx 模板,把文字填进去 部分可以,受模板限制
整页出图(Gamma、Beautiful.ai 早期、ChatGPT 的” 做幻灯片” 插件) 每页一张高清 PNG ❌ 完全改不了
HTML 演示稿(Slidev、revealjs、Marp) 浏览器里跑 ❌ 这不是 PPTX
原生可编辑(ppt-master 走的路线) 真实的 DrawingML 形状、文本框、图表、动画 ✅ 想改哪里点哪里

第四条路之所以难,是因为:PowerPoint 文件本质是 ZIP 打包的 XML(.pptx = DrawingML + 关系图 + 媒体文件),要让 LLM “写出” 一份结构合规、跨 Office 版本不爆炸、动画时序还对得上的 .pptx,工程量巨大。

ppt-master 选择了一条更聪明的路:自己不训练模型,而是把这件事拆成” 工作流(harness)” + “模型(model)”。作者把这个公式写在了 README 的第一行:

harness + model = agent

工具负责流程,模型负责质量。这就把”AI 做 PPT” 从一个黑盒变成了一个可调试、可替换、可升级的工程问题

核心功能亮点

下面这五点,是 ppt-master 真正区别于同类工具的地方。

1. 原生 DrawingML 输出,PowerPoint 里能改

这是项目的核心卖点。打开它生成的 .pptx,右键 → 编辑 任意文本框,文字真的在那里。点击 任意图表,可以改数据源。动画窗格 里能看到所有进入 / 退出动画,可以逐个调整时长。

实现方式:项目维护了一份基于 python-pptx 的封装,让 LLM 输出的” 页面描述” 被转换成 DrawingML 的 <p:sp><p:txBody><a:animation> 节点,最后打包成合规的 .pptx 文件。

2. Claude Code / Cursor / VS Code 全场景适配

它不是一个” 独立 app”,而是一个 Skill—— 可以装进你现在已经用的 AI IDE 里:

  • IDE 原生 Agent:VS Code、Cursor、Trae、Codebuddy、Windsurf、Void、Zed
  • IDE 插件 / 扩展:GitHub Copilot、Claude Code(VS Code / JetBrains)、Cline、Continue、Roo Code
  • CLI Agent:Claude Code CLI、Codex CLI、Aider、Gemini CLI

安装方式有三种:

1
2
3
4
5
# 方式 A:直接下载 ZIP 解压
# 方式 B:git clone
git clone https://github.com/hugohe3/ppt-master.git
# 方式 C:Claude Code 插件市场(推荐)
# .claude-plugin/marketplace.json 一键安装

3. “模板填充” 工作流:把内容塞进你已有的 PPT 模板

很多人其实不缺模板,缺的是把新内容填进老模板的工具。ppt-master 提供了一个独立的 workflow:template-fill-pptx—— 你把现有的 .pptx 丢给 AI,AI 把新内容塞进对应位置保留原模板的字体、配色、母版结构,而且输出仍然是原生可编辑的 PPTX。

这一招对咨询、投行、销售这类” 公司 PPT 模板神圣不可侵犯” 的岗位来说,是真金白银的省时间

4. 演讲者备注 + 音频旁白

每一页生成时,AI 会同时给出演讲者备注(speaker notes)。更进一步,备注可以直接转成音频旁白 —— 用 TTS 念出来。配合 PowerPoint 的” 录制幻灯片演示” 功能,基本可以做到给一份大纲 → 出一份带旁白的演示视频

5. 配图双路径:AI 生成 + Web 搜索

配图这件事,ppt-master 给了两条可混用的路径:

  • A) AI 生成python3 skills/ppt-master/scripts/image_gen.py 调用 gpt-image-2(默认推荐,质量最好)或其他支持 OpenAI Image API 的模型
  • B) Web 搜索image_search.py 默认从 Openverse / Wikimedia Commons 抓(零配置),配 PEXELS_API_KEY / PIXABAY_API_KEY 可以拉到 Pexels / Pixabay 的高质量 CC0 图

并且默认走” 质量优先” 授权链:CC0 → Public Domain → Pexels/Pixabay → CC BY → CC BY-SA,避免你拿一张” 禁止商业使用” 的图进季报。

实战示例:把一篇博客变成 10 页 PPT

下面走一遍最常见的场景:把一篇长文 / 报告转成一份 10 页的演示稿。

步骤 1:准备素材

1
2
3
4
# 创建项目目录
mkdir -p projects/q2-report/sources
# 把素材放进去(PDF / DOCX / HTML / 甚至直接粘贴的文字都行)
cp ~/Documents/q2-financial-report.pdf projects/q2-report/sources/

步骤 2:在 AI IDE 里开聊

打开 Claude Code(或 Cursor / VS Code + Copilot),进入 ppt-master 的 skill 目录,然后:

1
You: Please create a PPT from projects/q2-report/sources/q2-financial-report.pdf

AI 会先跟你确认设计规格:

1
2
3
4
5
6
AI: Sure. Let's confirm the design spec:
[Template] B) Free design
[Format] PPT 16:9
[Pages] 8-10 pages
[Style] Professional / financial / minimalist
[Image strategy] AI generation via gpt-image-2

步骤 3:AI 跑工作流

你确认之后,AI 会自动:

  1. 读 PDF(支持多页 PDF + OCR 扫描件)
  2. 切分章节、提炼每页核心信息
  3. 选模板 / 配色 / 字体
  4. 调用 image_gen.py 配图(如果需要)
  5. 用 python-pptx 写出 DrawingML 节点
  6. 打包成 .pptx,存到 exports/q2-financial-report_<timestamp>.pptx
  7. 同时在 backup/<timestamp>/svg_output/ 留一份 SVG 快照

步骤 4:在 PowerPoint 里改

打开生成的 .pptx,一切元素都能改

  • 改标题文字 → 双击直接编辑
  • 调字号 → 选中按 Ctrl+]
  • 换图表数据 → 右键 → 编辑数据
  • 调动画时序 → 动画窗格
  • 换主题色 → 设计 → 变体

这是用 Gamma 或 ChatGPT 出图式 PPT 永远做不到的事

进阶:用自己公司的模板

1
2
3
4
# 假设你公司模板在 ~/Templates/company-master.pptx
You: 用 ~/Templates/company-master.pptx 当模板,
把 projects/q2-report/sources/q2-financial-report.pdf
的内容填进去,导出 10 页。

AI 会调用 template-fill-pptx workflow,只动数据槽,保留母版和配色。导出的 PPT 直接拿去给老板看,连” 为什么用了别的字体” 的解释都省了。

适用场景与限制

适合谁用

  • 咨询 / 投行 / 审计:周报月报季报一堆,模板神圣不可侵犯,template-fill-pptx 是杀手锏
  • 产品 / 运营:PRD、竞品分析、用户调研报告,AI 出 80%,人改 20%
  • 学术 / 研究:论文转会议演讲 PPT 不用再从零排版
  • 销售 / BD:方案 PPT 需要快速响应客户版本,AI 出初稿 → 销售微调

用之前要知道的几件事

  • 模型天花板决定质量上限:作者在 README 里反复强调 —— 便宜的模型出来就是垃圾。想要出” 能直接交给老板” 的成品,建议用 Claude OpusGemini 3.5 Flash。GPT-4o 出图不错但 PPT 排版一般。
  • 必须用 Office 2016+ 打开:用 WPS / Keynote / LibreOffice 打开可能丢动画或排版错位
  • 不是” 全自动” 工具:作者写得很诚实,这是 harness,不是 agent。你不能跟它说” 做个完美的 PPT 给 CEO”,它只能帮你做 80%,剩下 20% 是你(人)的事
  • 配图一定要用 gpt-image-2 或自备素材:默认用 Openverse / Wikimedia Commons 抓的图质量参差,配上 Pexels API Key 会好很多
  • 大文档(> 200 页)需要分段处理:单次塞进上下文容易爆,ppt-master 提供分章节处理的 workflow

跟同类工具的对比

工具 能否逐元素改 模板填充 模型选择 成本 开源
Gamma ❌ 整页出图 固定(自家) 免费 + 付费
Beautiful.ai 部分 无(规则引擎) 付费
ChatGPT Slide Plugin GPT ChatGPT Plus
Marp / Slidev ✅ 但不是 PPTX 你自己写 免费
ppt-master 原生可编辑 PPTX 你自己挑 免费(自付 API) ✅ MIT

最后这一行就是 ppt-master 的定位:“我能给你一份真的能在 PowerPoint 里改的 PPTX,模型你随便挑,模板你随便换,我开源 MIT。”

总结

ppt-master 解决了一个被忽视了三年的问题:AI 出 PPT 不是” 渲染出一张好看的图” 就够了,必须让用户拿过去能改、敢改、改得快

它做对了三件事:

  1. 选对了输出格式 —— 原生 DrawingML,不是 PNG
  2. 选对了产品形态 —— 做成 Skill 装进现有 AI IDE,而不是做独立 app
  3. 选对了边界感 —— 明确说” 我是 harness,不是 agent”,把” 模型上限” 和” 工具流程” 拆开,让用户自己挑 Claude Opus 还是 Gemini 3.5 Flash

30k+ stars、836 次 commit、连续霸榜 GitHub Trending Python 榜前 3—— 这不是靠营销出来的热度,是真的戳中了” 打工人每周被 PPT 折磨” 这个全民痛点。

如果你下周的周报、季报、竞品分析还在从零排版,强烈建议花 10 分钟装一下 ppt-master。安装命令:

1
git clone https://github.com/hugohe3/ppt-master.git

然后打开 Claude Code,把一份 PDF 丢给它,让它先帮你做出 80%,剩下 20% 你再亲手改 —— 这才是 AI 时代正确的” 做 PPT” 姿势。

GitHub 地址:https://github.com/hugohe3/ppt-master
在线 Demo:https://hugohe3.github.io/ppt-master/
作者博客 & 文档:见仓库 docs/ 目录