長鏈路成功率衰減

多步驟 Agent 流水線中,每步 95% 成功率串聯 20 步後,端到端完成率僅剩約 36%。單靠提升模型能力不足以解決長鏈路任務的可靠性問題,需要系統層面的驗證與恢復機制。

核心數學

步驟數每步 95% 成功率的端到端成功率
5 步77%
10 步60%
20 步36%
50 步8%

這說明:長鏈路任務的失敗不是模型笨,而是機率的必然

為什麼這是個工程問題而非模型問題

即使模型能力提升到每步 99%,20 步後端到端也只有 82%——仍然有 18% 失敗率,對生產級任務不可接受。

「這不是模型聰明程度的問題,而是系統架構的問題。」

工程解法

Harness Engineering(馬具工程) 針對此問題提供的系統層解法:

1. 生成與評估分離(3A 架構

每一步生成後立即由 Evaluator(評估者)驗證——不等到最後才發現失敗。

2. Checkpoint + 恢復

利用 Externalized Memory(外部記憶) 記錄每個成功步驟的狀態 → 失敗時從最近 checkpoint 恢復,而非全部重來。

3. Deterministic Constraints(確定性約束)

能用 Linter / 測試直接驗證的步驟,不讓 AI 「推理」——硬性規律比模型自評更可靠。

4. 提升每步成功率

提升單步成功率仍有價值,但要搭配上述系統手段才能真正解決問題。

對 vault 工作的意義

wiki-ingest 的多步驟流程(13 步)也面臨同樣問題:

  • 每步都有可能出錯(entity 分類錯 / index.md 沒更新 / log 漏寫)
  • CLAUDE.md 的「必更新檔案清單(①–⑥)」就是 Checklist 形式的 Deterministic Constraint
  • wiki-lint 是事後的 Evaluator

相關概念

強連結(原文明確提及)

推斷連結(LLM 認為相關,待確認)

  • 反饋循環 ?? — 縮短每步的驗證週期是對抗衰減的有效手段
  • Agent Loop ?? — 衰減發生在 Agent Loop 的多輪迭代中

深入閱讀

← 回到 wiki