LOADING ASSETS
01 / 片头
EP.02 · AI 工程化的完整图谱
by Jixian
01 / 26
02 / 钩子
95%
GenAI 试点项目无可量化业务影响
MIT NANDA · 2025
42%
企业已放弃大多数 AI 项目(2025)
S&P Global · 1,000+ 企业
02 / 26
03 / 数据大图
AI 投入 vs 价值产出
无实质价值产出
60% (BCG 2025)
已放弃大多数AI项目
42% (S&P 2025)
未产生有形价值
74% (BCG 2024)
仅 5% 的公司真正在规模上用 AI 创造了价值
BCG "Widening AI Value Gap" 2025
03 / 26
04 / 根本原因
根本原因:不是模型问题
[ TOOL ]
工具学习成本被低估
通用工具
G
企业工具
E
学习曲线被低估 2-3 倍
[ BUDGET ]
资源严重错配
销售/营销
>50%
后台自动化
≈20%
ROI最高:后台自动化
[ BUILD ]
构建方式选错
33% 自建
67% 专业工具
根本原因不是模型质量,是集成方式
MIT NANDA 2025
04 / 26
05 / 死法一
死法一:部署太慢
BEFORE 2017
计划会议 → 开发 → 测试
→ 上线准备 → 上线 → 修Bug
部署周期
3 周
全年合计:4–7 次部署
AI 时代需求
代码提交 → 自动测试 → 部署
部署周期
数小时
竞争对手:每天多次迭代
案例:Keller Williams
05 / 26
06 / 死法二
死法二:上线即黑盒
❌ 黑盒状态
AI 系统
???
用户投诉 → 不知道哪里出了问题
✅ 有可观测性
Prompt 版本
Context 长度
模型版本
输出质量分数
监控告警
回滚按钮
AI 的失败不是硬崩溃——是悄悄变差
06 / 26
07 / 复杂度×10
AI 让复杂度 ×10
属性 传统软件 AI 系统
输出确定性✅ 确定⚠️ 概率分布
测试方式单元测试通即可需要 Eval Pipeline
错误溯源可以多 Agent 难以溯源
提示词变更影响N/A全量用户行为改变
失败方式崩溃 / 报错悄悄退化
Prompt 工程 解决以上所有问题
07 / 26
08 / 核心公式
Agent = Model + Harness
上下文注入· 任务分解· 状态持久化
输出验证· 错误修正· 多Agent协调
没有 Harness 的 AI ≈ 没有缰绳的马
LangChain "Anatomy of an Agent" · Martin Fowler 2026
08 / 26
09 / LLM解剖
LLM 的三个"没有"
MEM ×
没有记忆
每次对话重新开始
EXEC ×
没有执行能力
说了 ≠ 能做到
VERIFY ×
没有自我验证
说的未必是对的
这三个缺口,Harness 需要全部补齐
09 / 26
10 / Context窗口
Context 窗口:AI 的工作台
历史对话 25%
系统Prompt 15%
文档/知识库 35%
当前任务 20%
余量 5%
← 总容量有上限 →
截断 · 已"遗忘"
"Token 用量本身解释了 80% 的性能差异"
— Anthropic 内部研究
10 / 26
11 / Prompt局限
Prompt 工程为什么不够
完整 Harness
CI/CD · Feature Flag · 多Agent协调 · 可观测性
上下文工程
Prompt 工程
只换轮胎 需要引擎 + 刹车 + 悬挂都调好
11 / 26
12 / 五大模块
Harness 五大核心模块
01 / 上下文工程
AGENTS.md
动态注入
状态持久化
02 / 自动化管道
CI/CD
Eval Pipeline
自动回滚
03 / Feature Flag
灰度发布
无需重新部署
A/B 测试
04 / 混沌工程
主动注入故障
提前找弱点
自动恢复验证
05 / 可观测性
DORA 指标
实时监控
告警+回滚
12 / 26
13 / CI/CD
CI/CD:自动化流水线
代码提交
自动测试
Eval Pipeline
测试环境
人工确认
生产
❌ Eval失败 报告退化详情
❌ 测试环境失败 一键回滚
传统手动部署
每季度
有 CI/CD
每天 / 每小时
13 / 26
14 / Feature Flag
Feature Flag:AI 行为的旋钮
A/B TEST
新版 Prompt v2.0
● LIVE
0%
灰度推送 · 只对 1% 用户开放
CANARY
GPT-5 模型(测试)
● CANARY
0%
金丝雀发布 · 流量切 5% 验证稳定
FULL ROLLOUT
推荐系统 AI 增强
✓ 100%
0%
全量上线 · 已覆盖 100% 用户
KILL SWITCH
敏感内容过滤 v3
⚠ KILLED
OFF
紧急熔断已触发
发现异常 → 5秒内关闭,无需部署
无需重新部署 · 5秒生效 · 可随时回退
14 / 26
15 / 混沌工程
混沌工程:主动打爆
✅ 受控实验
[Chaos工具] → 注入 →
LLM API 超时 → AI系统 → 优雅降级 ✅
异常输出格式 → AI系统 → 格式校验 ✅
工具调用断开 → AI系统 → 备用路径 ✅
❌ 等待生产崩溃
🔔
凌晨 2:00
原因未知,用户已流失
修复时间:未知
15 / 26
16 / DORA指标
DORA 四指标:精英 vs 低效
部署频率
182×
精英 > 低效
变更前置时间
127×
精英 > 低效
变更失败率
精英 ~5%
低效 30-40%
故障恢复时间
2293×
精英 > 低效
2293× — 不是打错了
DORA 2024 · Google Cloud · 39,000+ 专业人员调研
16 / 26
17 / 三步起手
三步起手法
Step 1
AGENTS.md
成本:⚡ 零
难度:★☆☆
见效:🟢 当天
Step 2
计算型反馈循环
成本:⚡⚡ 低
难度:★★☆
见效:🟡 1周内
Step 3
推理型评估
(LLM as Judge)
成本:⚡⚡⚡ 中
难度:★★★
见效:🔴 需迭代
今天就能开始 → Step 1:30分钟,一个文件
17 / 26
18 / 架构模式
三种 Harness 架构模式
模式 1
单Agent强Harness
Agent
强Harness约束
适合:个人/小团队
模式 2
Orchestrator-Worker
Orchestrator
↙ ↓ ↘
W1
W2
W3
并行执行
比单Agent强 90.2%
模式 3
Evaluator-in-loop
Agent
Evaluator
← 独立审查
通过才进下一步
精度最高 · 成本最高
18 / 26
19 / 大厂案例
大厂怎么做:三组数据
OpenAI (Codex)
3名工程师 · 5个月 · 100万行代码
1,500
PRs generated
人均 PR/天
3.5×
Anthropic (Multi-Agent)
多Agent 比 单Agent Opus 4
90%
90.2%
性能提升
Token用量解释 80% 性能差异
Stripe (LLM 欺诈检测)
59% 97%
处理全球 1.3% GDP 支付流量
共同点:都是工程架构解决的,不是换模型
19 / 26
20 / AGENTS.md
# AGENTS.md

## 项目概述
[2-3句:项目是什么、用什么技术栈、核心目标]

## 禁止触碰
- 不要修改 /config/prod.yaml
- 不要升级 numpy 版本(会破坏依赖)
- 不要直接推送 main 分支

## 代码规范
- 函数必须有 docstring
- 变量名用英文,注释可以用中文
- commit message 格式:type(scope): description

## 验证方式
修改后必须运行:pytest tests/ && npm run lint
30分钟 · 零基础设施 · 今天就能做
20 / 26
21 / KW案例
案例:Keller Williams
手动 3 周准备
每年 4–7 次
自动化流水线
每周 / 每天
"自从迁移到 Harness,我们的部署频率显著提升。曾经的季度流程,现在变成了每周,甚至每天。"
— Brandon Taylor-Nelson,Principal Software Architect,Keller Williams
Keller Williams · 全球最大房产经纪公司之一
21 / 26
22 / DORA对比
DORA 精英 vs 普通:量级差距
部署频率
精英
普通
×182
变更前置时间
精英
普通
×127
故障恢复
精英
普通
×2293
变更失败率
精英
~5%
普通
30-40%
DORA 2024 · Google Cloud · 39,000+ 专业人员
22 / 26
23 / 角色进化
角色进化:从写代码到设计环境
旧角色(正在消失) 转变方向 新角色(正在崛起)
写业务代码 上下文基础设施 设计 AGENTS.md / 文档结构
手动审查 PR 反馈循环设计 工具调用 / 自我修正机制
写测试用例 验证标准定义 Eval Pipeline / 质量基准
OpenAI · "Humans steer. Agents execute." · 2026
23 / 26
24 / 职位变化
职位变化:新分工正在形成
🔻 门槛降低
初级业务代码开发
手动 QA 测试工程师
配置管理工程师
🔺 需求上升
AI Reliability Engineer
AI 可靠性
Harness Engineer
上下文工程
AI Product Engineer
业务+AI能力判断
现在是学习窗口期 — 市场需求增长 · 具备系统化能力的人才稀缺
24 / 26
25 / 行动清单
你的下一步行动
今天(30分钟)
给你的项目写第一个 AGENTS.md
→ 4个模块:概述 / 禁区 / 规范 / 验证方式
本周
给最常改的模块加自动化测试
→ 错误信息设计为 AI 友好格式(含修正指令)
本月
给一个 AI 功能加 Feature Flag 开关
→ 工具推荐:Unleash / Flagsmith / Harness
Harness 是渐进式的。从第一步开始,你就在正确轨道上了。
25 / 26
26 / 结尾
"Prompt 是你跟 AI 对话的方式,
Harness 是让 AI 在生产里生存的方式。"
EP.03 预告
如何设计 AI 系统的 Eval Pipeline
——用 AI 评估 AI 输出质量的完整方法
订阅频道
26 / 26