DeerFlow 2.0:字节跳动开源的 SuperAgent Harness,让一个 Agent 干完一队人的活

DeerFlow 2.0:字节跳动开源的 SuperAgent Harness,让一个 Agent 干完一队人的活

一、一个场景:明明只是一篇调研报告,为什么写了两周?

“花三天读论文、拉数据、做竞品分析,再花两天把这些塞进 PPT。”—— 这是不是听起来很熟悉?更扎心的是,做完之后你大概率会收到一句” 能不能再做个网页版?”。

我们目前的 AI Agent 大多数是” 单兵作战”:一个主 Agent 接 prompt、查资料、写文档、生成配图、导出 PPT—— 所有事情串在一条链上跑。一旦任务稍微复杂一点,问题立刻冒出来:上下文窗口被自己撑爆、并发度上不去、一个工具报错整个流程卡死、最后产出的内容风格也七零八落。

字节跳动 2 月底把内部用了大半年、并在 2026 年 2 月 28 日登顶 GitHub Trending 第一名的项目 DeerFlow 2.0github.com/bytedance/deer-flow)完全开源了出来。72,000+ stars、MIT 协议、基于 LangGraph 与 LangChain 重写,它不是又一个” 研究助手”,而是一套给 Agent 用的运行时(Agent Harness)—— 把” 一个 Agent 干所有事” 换成了” 一个 Lead Agent 调度一队 Sub-Agent”。

二、项目背景:从 Deep Research 到 SuperAgent Harness

DeerFlow 的全称是 Deep Exploration and Efficient Research Flow。1.x 版本最初定位是” 深度研究框架”,2.0 做了一次彻头彻尾的 ground-up rewrite,代码与 1.x 没有任何继承关系 ——v1 的研究能力保留在 main-1.x 分支,2.0 主线已经进化成一套” 能跑长链路任务的 Agent 操作系统”。

官方对它的定义是 SuperAgent Harness—— 一个能编排 sub-agents、memory、sandboxes,并被可扩展 skills 驱动的运行时。它要解决的问题不是” 再做一个更好的 ChatGPT”,而是:

  • 任务时长从” 几十秒” 扩展到” 几分钟到几小时”;
  • 上下文从” 塞进一个窗口” 变成” 按需加载 + 子 Agent 隔离”;
  • 工具从” 塞 50 个 MCP” 变成” 按任务渐进式激活 skills”;
  • 执行从” 单进程串行” 变成” 并行 Sub-Agent + 沙箱隔离”。

用一句话总结:DeerFlow 把 Agent 从” 对话” 升级为” 工程”

三、核心功能:五件套让长链路任务真正可工程化

1. Skills:按需加载的” 能力模块”

DeerFlow 里的 Skill 不是” 插件代码”,而是写在 SKILL.md 里的结构化能力描述 ——markdown 写清楚” 这个 skill 解决什么问题、输入是什么、输出格式、典型步骤”。系统启动时只加载 skill 的元信息(名字、描述、占用 token 大小),真正用的时候才把完整流程读进上下文。

内置的 5 个公共 skill:

  • research:多源检索、交叉验证、产出研究报告;
  • report-generation:把研究结果组织成结构化长文;
  • slide-creation:直接生成 PPT;
  • web-page:把同一份内容渲成网页;
  • image / video generation:按需生成配图或视频。

按需加载带来的好处是主 Agent 的系统 prompt 永远保持精简 ——72k stars 的项目里没有任何一个内置 skill 会被” 无条件塞进 prompt”。如果你装了 Claude Code / Codex / Cursor,还可以用一句话让 coding agent 帮你装好 DeerFlow:

1
2
Help me clone DeerFlow if needed, then bootstrap it for local development by
following https://raw.githubusercontent.com/bytedance/deer-flow/main/Install.md

2. Sub-Agents:把一个大任务拆给一队人

Lead Agent 接到任务后,会自己判断需要拆成几步、每一步派给哪种 Sub-Agent。每个 Sub-Agent 拥有:

  • 独立的上下文窗口 —— 子 Agent 看不到主 Agent,也看不到其它 Sub-Agent 的对话;
  • 独立的工具集 —— 比如” 研究” 型 Sub-Agent 拿搜索 / 抓取工具,” 写作” 型 Sub-Agent 拿文件 / 排版工具;
  • 独立的终止条件 —— 明确” 做完就走”,避免无限循环。

关键是它们能并行跑。比如” 研究 A 股 + 港股 + 美股三家公司”,三个 Sub-Agent 同步出去各自调研,最后由 Lead Agent 把三份结果合并成一份报告。子 Agent 的 token 消耗会单独归集到发起它的那个 step,方便你做成本归因。

3. Sandbox:每个任务一个安全执行环境

DeerFlow 提供两种沙箱模式:

  • AioSandboxProvider:用 Docker 容器隔离执行 shell、Python 脚本、Playwright 浏览器操作;
  • LocalSandboxProvider:把文件操作映射到主机目录,默认禁用 bash,适合” 不放心给 Agent 跑代码、但想让它读写文件” 的场景。

每个任务启动后,会拿到一套标准化的文件系统:

1
2
3
4
/mnt/user-data/
├── uploads/ ← 你上传的原始素材
├── workspace/ ← Sub-Agent 的工作目录
└── outputs/ ← 最终交付物(报告、PPT、网页、图表)

这种” 虚拟电脑” 的设计意味着 Sub-Agent 之间的产出不会互相污染,主 Agent 拿到的永远是” 成品文件” 而不是” 半成品对话”。

4. Context Engineering:把上下文当成” 工程” 来管

DeerFlow 把上下文工程拆成 4 个独立策略:

  • Sub-Agent 隔离上下文:避免噪音扩散;
  • 强制 Summarization:在长会话里定期压缩早期消息;
  • Strict Tool-Call Recovery:被中断的工具调用会被清理掉原始元数据,注入占位结果,防止模型” 卡在幻觉里”;
  • Skill 渐进式加载:前文已经说过的,按需激活。

这四点合起来让 DeerFlow 2.0 能稳定跑长达数小时的任务,而不会像单 Agent 那样在 1 小时后开始” 答非所问”。

5. Long-Term Memory:跨会话的” 用户档案”

DeerFlow 把用户偏好、过往任务里沉淀的事实写进本地长期记忆,下一次启动会自动恢复。更妙的是:写入时会做去重 —— 同一个事实不会因为被反复提到就被重复存储。配合 Skill 系统,它能在你第二次做类似任务时主动建议” 要不要沿用上次的结构?”

四、实战示例:让 DeerFlow 自动产出” 行业研究报告 + PPT + 网页”

下面演示一个典型工作流 —— 研究”2026 年 AI Agent 框架市场格局”,并一键产出 markdown 报告 + PPT + 网页。假设你已经按官方 Install.md 跑完 make config 并写好 config.yaml

Step 1. 启动 DeerFlow 控制台

1
2
make run
# 默认监听 http://localhost:2026

Step 2. 在前端发起任务

在对话框里输入:

1
2
3
4
5
6
7
请用 research + report-generation + slide-creation 三个 skill 协作完成:
主题:2026 年 AI Agent 框架市场格局(LangChain、LangGraph、AutoGen、MetaGPT、CrewAI、Agno)
要求:
1. 拉取每个项目的最新 stars、release、license、核心定位;
2. 用表格对比它们的能力差异;
3. 输出到 /mnt/user-data/outputs/ 下的三份文件:report.md、slides.pptx、webpage.html;
4. 最后给我一个一句话总结。

Step 3. 观察 Lead Agent 的调度

前端会实时显示 Lead Agent 拆出了哪些 Sub-Agent、它们在跑什么 skill、当前 token 消耗。你可以中途看到类似这样的过程:

1
2
3
4
5
6
7
[Lead] 识别到需要:研究 → 写作 → 排版
├── Sub-Agent #1 (research) → 抓 6 个项目的 README + 近期 release notes
├── Sub-Agent #2 (research) → 检索 2026 Q1 / Q2 的行业评测文章
├── Sub-Agent #3 (analysis) → 对比 6 个项目的 stars、license、协议
├── Sub-Agent #4 (report-gen) → 汇总上面三份结果产出 report.md
├── Sub-Agent #5 (slide) → 把报告转成 slides.pptx
└── Sub-Agent #6 (web-page) → 把报告渲成 webpage.html

Step 4. 拿到产物

任务结束后,去 /mnt/user-data/outputs/ 拉文件即可。整个过程 5–15 分钟,主 Agent 自己的上下文始终保持精简,因为重活全部分摊给了 Sub-Agent。

进阶玩法:让 Claude Code 直接指挥 DeerFlow

装好 claude-to-deerflow skill 后,你在 Claude Code 里输入 /claude-to-deerflow,就能把当前 Coding Agent 当成 DeerFlow 的一个客户端,命令由 DeerFlow 的 Lead Agent 统一调度。

五、适用场景与限制

DeerFlow 适合的场景

  • 长链路内容生产:调研 + 报告 + PPT + 网页这种” 一个人干一周” 的活;
  • 多源数据分析:把” 拉数据 + 清洗 + 分析 + 出图 + 写解读” 串成一个 pipeline;
  • 代码 + 文档双交付:研究代码库改完之后,自动生成对应的技术文档、发布说明;
  • 需要” 工程化” 的 AI 工作流:你希望任务可观测、可中断、可恢复,而不是一次性 chat。

DeerFlow 不适合 / 有局限的场景

  • 极简单轮对话:” 帮我写个正则” 这种任务,单 Agent 反而更快;
  • 实时性要求极高:5 秒内必须给出答案的场景,DeerFlow 的 Sub-Agent 调度开销吃不消;
  • 极低 token 预算:Sub-Agent 隔离和持久记忆都要额外开销,单任务 token 消耗通常比” 裸调 LLM API” 高 20–40%;
  • 模型强依赖:官方推荐” 长上下文 + 工具调用 + 推理” 三项齐全的模型,纯小模型跑不起来;需要先在 config.yaml 里配好 OpenAI / Anthropic / OpenRouter 等兼容网关。

六、总结:Agent 时代的” 操作系统” 长什么样?

如果说 LangChain 是”Agent 时代的 Spring”,那 DeerFlow 2.0 给出的答案更接近”Agent 时代的 Kubernetes”—— 它关心的不是单 Agent 怎么写 prompt,而是多 Agent 怎么协作、上下文怎么工程化、长任务怎么不崩、产物怎么落盘

72,000+ stars 不是白拿的。它解决的是当前 AI Agent 落地最痛的那几件事:

  • 复杂任务可拆分:Lead Agent + Sub-Agent 的两层结构天然适合” 研究 + 写作 + 排版” 型任务;
  • 上下文不再爆:Sub-Agent 隔离 + 按需加载 Skill + 强制 Summarization;
  • 执行可观测:每个 step、每个 Sub-Agent 的 token 消耗独立归因;
  • 产物可交付:沙箱文件系统 + 多 skill 协作产出真实文件,不只是” 一段对话”。

如果你正在做 AI Agent 产品、想给团队搭一套”AI 数字员工流水线”,又或者你已经受够了 LangGraph 自己拼图拼到怀疑人生 ——DeerFlow 2.0 值得花一个下午去 git clone 一下

仓库地址:github.com/bytedance/deer-flow(MIT・Python 3.12+・Node 22+),官方文档站:deerflow.tech。装好之后,从 /research 跑一个你最熟悉的领域开始,会很快理解它为什么能登顶 Trending。