3A 架構
Anthropic 提出的 Harness Engineering 實作架構:將任務分為 Planner(規劃)→ Generator(生成)→ Evaluator(驗證) 三種分工角色,透過「生成與評估分離」確保輸出品質。
三個角色
| 角色 | 英文 | 職責 |
|---|---|---|
| 規劃者 | Planner | 將模糊需求擴展為具體功能清單 |
| 生成者 | Generator | 逐步實現功能——一步一步的開發 |
| 評估者 | Evaluator | 獨立驗證輸出是否符合品質要求 |
為什麼 Evaluator 必須獨立
核心問題:Self-Assessment Bias(自評估偏差)
模型評估自身工作時,傾向於過度自信地稱讚平庸的作品。
工程化一個獨立的外部評估器,比「教 Generator 自我批評」更容易、更有效。
→ 這是 Harness Engineering 的「生成與評估分離」原則的具體落地。
Evaluator 的實作方式
Anthropic 的 Evaluator 使用真實環境互動式驗證:
- 例如用 Playwright 實際操作瀏覽器,測試 UI 行為
- 不只是 static code review,而是在真實環境中跑完整驗收
這區別於傳統「unit test」的靜態驗證——Evaluator 驗的是端到端的用戶體驗。
3A 架構的流程
需求(模糊)
↓
Planner:需求拆解 → 具體功能清單
↓
Generator:逐項實作(可多輪)
↓
Evaluator:真實環境驗收 → 通過/退回
↓
通過 → 交付
退回 → 回到 Generator 修正
對比傳統架構
| 傳統作法 | 3A 架構 |
|---|---|
| 模型一次生成並自評 | 生成與評估嚴格分離 |
| 靜態 code review | 真實環境互動驗證 |
| 同一個模型扮演多角 | 不同 Agent 實例分工 |
在 vault 的對應
本 vault 的 wiki-lint(健康檢查)扮演的是 Evaluator 角色——不生成內容、只評估;wiki-ingest + wiki-repair 扮演 Generator 角色。這是 3A 架構在知識庫維護中的對應。
相關概念
強連結(原文明確提及)
- Harness Engineering — 3A 架構屬於 Harness 的一部分
- Agent Loop — 3A 架構在 Agent 循環中的位置
- Sub-agent — Planner / Generator / Evaluator 各為一個 sub-agent
推斷連結(LLM 認為相關,待確認)
- 反饋循環 ?? — Evaluator → Generator 退回就是系統內建回饋迴圈
- Externalized Memory ?? — 三個角色之間靠外部製品傳遞狀態
深入閱讀
- Harness Engineering 深度學習指南 §第一部分 Q4
← 回到 wiki