Harness Engineering

01 / 片头

EP.02 · AI 工程化的完整图谱

by Jixian

01 / 26

02 / 钩子

95%

GenAI 试点项目无可量化业务影响

MIT NANDA · 2025

42%

企业已放弃大多数 AI 项目（2025）

S&P Global · 1,000+ 企业

02 / 26

03 / 数据大图

AI 投入 vs 价值产出

无实质价值产出

60% (BCG 2025)

已放弃大多数AI项目

42% (S&P 2025)

未产生有形价值

74% (BCG 2024)

仅 5% 的公司真正在规模上用 AI 创造了价值

BCG "Widening AI Value Gap" 2025

03 / 26

04 / 根本原因

根本原因：不是模型问题

[ TOOL ]

工具学习成本被低估

通用工具

G

≠

企业工具

E

学习曲线被低估 2-3 倍

[ BUDGET ]

资源严重错配

销售/营销

>50%

后台自动化

≈20%

ROI最高：后台自动化

[ BUILD ]

构建方式选错

33% 自建

67% 专业工具

根本原因不是模型质量，是集成方式

MIT NANDA 2025

04 / 26

05 / 死法一

死法一：部署太慢

BEFORE 2017

计划会议 → 开发 → 测试
→ 上线准备 → 上线 → 修Bug

部署周期

3 周

全年合计：4–7 次部署

AI 时代需求

代码提交 → 自动测试 → 部署

部署周期

数小时

竞争对手：每天多次迭代

案例：Keller Williams

05 / 26

06 / 死法二

死法二：上线即黑盒

❌ 黑盒状态

AI 系统

???

用户投诉 → 不知道哪里出了问题

✅ 有可观测性

Prompt 版本

Context 长度

模型版本

输出质量分数

监控告警

回滚按钮

AI 的失败不是硬崩溃——是悄悄变差

06 / 26

07 / 复杂度×10

AI 让复杂度 ×10

属性	传统软件	AI 系统
输出确定性	✅ 确定	⚠️ 概率分布
测试方式	单元测试通即可	需要 Eval Pipeline
错误溯源	可以	多 Agent 难以溯源
提示词变更影响	N/A	全量用户行为改变
失败方式	崩溃 / 报错	悄悄退化

Prompt 工程 ≠ 解决以上所有问题

07 / 26

08 / 核心公式

Agent = Model + Harness

上下文注入· 任务分解· 状态持久化
输出验证· 错误修正· 多Agent协调

没有 Harness 的 AI ≈ 没有缰绳的马

LangChain "Anatomy of an Agent" · Martin Fowler 2026

08 / 26

09 / LLM解剖

LLM 的三个"没有"

MEM ×

没有记忆

每次对话重新开始

EXEC ×

没有执行能力

说了 ≠ 能做到

VERIFY ×

没有自我验证

说的未必是对的

这三个缺口，Harness 需要全部补齐

09 / 26

10 / Context窗口

Context 窗口：AI 的工作台

历史对话 25%

系统Prompt 15%

文档/知识库 35%

当前任务 20%

余量 5%

← 总容量有上限 →

截断 · 已"遗忘"

"Token 用量本身解释了 80% 的性能差异"

— Anthropic 内部研究

10 / 26

11 / Prompt局限

Prompt 工程为什么不够

完整 Harness

CI/CD · Feature Flag · 多Agent协调 · 可观测性

上下文工程

Prompt 工程

只换轮胎 → 需要引擎 + 刹车 + 悬挂都调好

11 / 26

12 / 五大模块

Harness 五大核心模块

01 / 上下文工程

AGENTS.md
动态注入
状态持久化

02 / 自动化管道

CI/CD
Eval Pipeline
自动回滚

03 / Feature Flag

灰度发布
无需重新部署
A/B 测试

04 / 混沌工程

主动注入故障
提前找弱点
自动恢复验证

05 / 可观测性

DORA 指标
实时监控
告警+回滚

12 / 26

13 / CI/CD

CI/CD：自动化流水线

代码提交

自动测试

✅

Eval Pipeline

✅

测试环境

人工确认

生产

❌ Eval失败 → 报告退化详情

❌ 测试环境失败 → 一键回滚

传统手动部署

每季度

有 CI/CD

每天 / 每小时

13 / 26

14 / Feature Flag

Feature Flag：AI 行为的旋钮

A/B TEST

新版 Prompt v2.0

● LIVE

0%

灰度推送 · 只对 1% 用户开放

CANARY

GPT-5 模型（测试）

● CANARY

0%

金丝雀发布 · 流量切 5% 验证稳定

FULL ROLLOUT

推荐系统 AI 增强

✓ 100%

0%

全量上线 · 已覆盖 100% 用户

KILL SWITCH

敏感内容过滤 v3

⚠ KILLED

OFF

紧急熔断已触发

发现异常 → 5秒内关闭，无需部署

无需重新部署 · 5秒生效 · 可随时回退

14 / 26

15 / 混沌工程

混沌工程：主动打爆

✅ 受控实验

[Chaos工具] → 注入 →

LLM API 超时 → AI系统 → 优雅降级 ✅

异常输出格式 → AI系统 → 格式校验 ✅

工具调用断开 → AI系统 → 备用路径 ✅

❌ 等待生产崩溃

🔔

凌晨 2:00

原因未知，用户已流失
修复时间：未知

15 / 26

16 / DORA指标

DORA 四指标：精英 vs 低效

部署频率

182×

精英 > 低效

变更前置时间

127×

精英 > 低效

变更失败率

精英 ~5%

低效 30-40%

故障恢复时间

2293×

精英 > 低效

2293× — 不是打错了

DORA 2024 · Google Cloud · 39,000+ 专业人员调研

16 / 26

17 / 三步起手

三步起手法

Step 1

AGENTS.md

成本：⚡ 零
难度：★☆☆
见效：🟢 当天

Step 2

计算型反馈循环

成本：⚡⚡ 低
难度：★★☆
见效：🟡 1周内

Step 3

推理型评估

(LLM as Judge)

成本：⚡⚡⚡ 中
难度：★★★
见效：🔴 需迭代

今天就能开始 → Step 1：30分钟，一个文件

17 / 26

18 / 架构模式

三种 Harness 架构模式

模式 1

单Agent强Harness

Agent

↓

强Harness约束

适合：个人/小团队

模式 2

Orchestrator-Worker

Orchestrator

↙ ↓ ↘

W1

W2

W3

并行执行

比单Agent强 90.2%

模式 3

Evaluator-in-loop

Agent

↓

Evaluator

← 独立审查

↓

通过才进下一步

精度最高 · 成本最高

18 / 26

19 / 大厂案例

大厂怎么做：三组数据

OpenAI (Codex)

3名工程师 · 5个月 · 100万行代码

1,500

PRs generated

人均 PR/天

3.5×

Anthropic (Multi-Agent)

多Agent 比单Agent Opus 4

90%

90.2%

性能提升

Token用量解释 80% 性能差异

Stripe (LLM 欺诈检测)

59% 97%

处理全球 1.3% GDP 支付流量

共同点：都是工程架构解决的，不是换模型

19 / 26

20 / AGENTS.md

# AGENTS.md

## 项目概述
[2-3句：项目是什么、用什么技术栈、核心目标]

## 禁止触碰
- 不要修改 /config/prod.yaml
- 不要升级 numpy 版本（会破坏依赖）
- 不要直接推送 main 分支

## 代码规范
- 函数必须有 docstring
- 变量名用英文，注释可以用中文
- commit message 格式：type(scope): description

## 验证方式
修改后必须运行：pytest tests/ && npm run lint

30分钟 · 零基础设施 · 今天就能做

20 / 26

21 / KW案例

案例：Keller Williams

手动 3 周准备

每年 4–7 次

自动化流水线

每周 / 每天

"自从迁移到 Harness，我们的部署频率显著提升。曾经的季度流程，现在变成了每周，甚至每天。"

— Brandon Taylor-Nelson，Principal Software Architect，Keller Williams

Keller Williams · 全球最大房产经纪公司之一

21 / 26

22 / DORA对比

DORA 精英 vs 普通：量级差距

部署频率

精英

普通

×182

变更前置时间

精英

普通

×127

故障恢复

精英

普通

×2293

变更失败率

精英

~5%

普通

30-40%

DORA 2024 · Google Cloud · 39,000+ 专业人员

22 / 26

23 / 角色进化

角色进化：从写代码到设计环境

旧角色（正在消失）	转变方向	新角色（正在崛起）
写业务代码	上下文基础设施	设计 AGENTS.md / 文档结构
手动审查 PR	反馈循环设计	工具调用 / 自我修正机制
写测试用例	验证标准定义	Eval Pipeline / 质量基准

OpenAI · "Humans steer. Agents execute." · 2026

23 / 26

24 / 职位变化

职位变化：新分工正在形成

🔻 门槛降低

初级业务代码开发

手动 QA 测试工程师

配置管理工程师

🔺 需求上升

AI Reliability Engineer

AI 可靠性

Harness Engineer

上下文工程

AI Product Engineer

业务+AI能力判断

现在是学习窗口期 — 市场需求增长 · 具备系统化能力的人才稀缺

24 / 26

25 / 行动清单

你的下一步行动

今天（30分钟）

给你的项目写第一个 AGENTS.md

→ 4个模块：概述 / 禁区 / 规范 / 验证方式

本周

给最常改的模块加自动化测试

→ 错误信息设计为 AI 友好格式（含修正指令）

本月

给一个 AI 功能加 Feature Flag 开关

→ 工具推荐：Unleash / Flagsmith / Harness

Harness 是渐进式的。从第一步开始，你就在正确轨道上了。

25 / 26

26 / 结尾

"Prompt 是你跟 AI 对话的方式，
Harness 是让 AI 在生产里生存的方式。"

EP.03 预告

如何设计 AI 系统的 Eval Pipeline

——用 AI 评估 AI 输出质量的完整方法

订阅频道

26 / 26