長鏈路成功率衰減
多步驟 Agent 流水線中,每步 95% 成功率串聯 20 步後,端到端完成率僅剩約 36%。單靠提升模型能力不足以解決長鏈路任務的可靠性問題,需要系統層面的驗證與恢復機制。
核心數學
| 步驟數 | 每步 95% 成功率的端到端成功率 |
|---|---|
| 5 步 | 77% |
| 10 步 | 60% |
| 20 步 | 36% |
| 50 步 | 8% |
這說明:長鏈路任務的失敗不是模型笨,而是機率的必然。
為什麼這是個工程問題而非模型問題
即使模型能力提升到每步 99%,20 步後端到端也只有 82%——仍然有 18% 失敗率,對生產級任務不可接受。
「這不是模型聰明程度的問題,而是系統架構的問題。」
工程解法
Harness Engineering(馬具工程) 針對此問題提供的系統層解法:
1. 生成與評估分離(3A 架構)
每一步生成後立即由 Evaluator(評估者)驗證——不等到最後才發現失敗。
2. Checkpoint + 恢復
利用 Externalized Memory(外部記憶) 記錄每個成功步驟的狀態 → 失敗時從最近 checkpoint 恢復,而非全部重來。
3. Deterministic Constraints(確定性約束)
能用 Linter / 測試直接驗證的步驟,不讓 AI 「推理」——硬性規律比模型自評更可靠。
4. 提升每步成功率
提升單步成功率仍有價值,但要搭配上述系統手段才能真正解決問題。
對 vault 工作的意義
wiki-ingest 的多步驟流程(13 步)也面臨同樣問題:
- 每步都有可能出錯(entity 分類錯 / index.md 沒更新 / log 漏寫)
- CLAUDE.md 的「必更新檔案清單(①–⑥)」就是 Checklist 形式的 Deterministic Constraint
- wiki-lint 是事後的 Evaluator
相關概念
強連結(原文明確提及)
- Harness Engineering — 本規則是 Harness 存在的核心動機
- 3A 架構 — 系統層解法之一
- Externalized Memory — 系統層解法之二
推斷連結(LLM 認為相關,待確認)
- 反饋循環 ?? — 縮短每步的驗證週期是對抗衰減的有效手段
- Agent Loop ?? — 衰減發生在 Agent Loop 的多輪迭代中
深入閱讀
- Harness Engineering 深度學習指南 §第一部分 Q3
← 回到 wiki