長鏈路成功率衰減

多步驟 Agent 流水線中，每步 95% 成功率串聯 20 步後，端到端完成率僅剩約 36%。單靠提升模型能力不足以解決長鏈路任務的可靠性問題，需要系統層面的驗證與恢復機制。

核心數學

$0.9 5^{20} \approx 0.358 \approx 36%$

這說明：長鏈路任務的失敗不是模型笨，而是機率的必然。

即使模型能力提升到每步 99%，20 步後端到端也只有 82%——仍然有 18% 失敗率，對生產級任務不可接受。

「這不是模型聰明程度的問題，而是系統架構的問題。」

Harness Engineering（馬具工程）針對此問題提供的系統層解法：

每一步生成後立即由 Evaluator（評估者）驗證——不等到最後才發現失敗。

利用 Externalized Memory（外部記憶）記錄每個成功步驟的狀態 → 失敗時從最近 checkpoint 恢復，而非全部重來。

能用 Linter / 測試直接驗證的步驟，不讓 AI 「推理」——硬性規律比模型自評更可靠。

提升單步成功率仍有價值，但要搭配上述系統手段才能真正解決問題。

wiki-ingest 的多步驟流程（13 步）也面臨同樣問題：