死法二:上线即黑盒
❌ 黑盒状态
AI 系统
???
用户投诉 → 不知道哪里出了问题
✅ 有可观测性
Prompt 版本
Context 长度
模型版本
输出质量分数
监控告警
回滚按钮
AI 的失败不是硬崩溃——是悄悄变差
| 属性 | 传统软件 | AI 系统 |
|---|---|---|
| 输出确定性 | ✅ 确定 | ⚠️ 概率分布 |
| 测试方式 | 单元测试通即可 | 需要 Eval Pipeline |
| 错误溯源 | 可以 | 多 Agent 难以溯源 |
| 提示词变更影响 | N/A | 全量用户行为改变 |
| 失败方式 | 崩溃 / 报错 | 悄悄退化 |
Prompt 工程
≠
解决以上所有问题
| 旧角色(正在消失) | 转变方向 | 新角色(正在崛起) | |
|---|---|---|---|
| 写业务代码 | 上下文基础设施 | 设计 AGENTS.md / 文档结构 | |
| 手动审查 PR | 反馈循环设计 | 工具调用 / 自我修正机制 | |
| 写测试用例 | 验证标准定义 | Eval Pipeline / 质量基准 |