跳转至

AI Agents 概述

AI Agent 是建立在大型語言模型(LLM,Large Language Model;以海量文本訓練、能生成與推理語言的神經網路)之上的自主系統,會感知、規劃,並朝目標執行動作。和聊天機器人一次回應一段提示不同,Agent 跑的是一條 perceive–plan–act 迴圈:觀察環境、做決策、執行動作,反覆迭代直到任務完成。如 Anthropic 工程團隊所述:"Agents... are systems where LLMs dynamically direct their own processes and tool usage, maintaining control over how they accomplish tasks."(Agent 是讓 LLM 自主主導自身流程與工具使用、掌控任務完成方式的系統。)


Agent 與聊天機器人有何不同?

面向 聊天機器人 Agent
互動方式 單一提示 → 回應 多步驟工作流程搭配工具使用
狀態 無狀態或僅限會話 跨會話持久狀態
自主性 遵循明確指令 自主決策、處理模糊情況
工具 無或有限 檔案 I/O、Shell、API、程式碼執行

Agent 核心能力

大多數 AI Agent(Lilian Weng 稱為 LLM-powered autonomous agents)通常包含:

  1. 規劃 – 將複雜任務拆解為子任務
  2. 工具使用 – 呼叫外部 API、讀寫檔案、執行命令
  3. 記憶 – 短期(上下文視窗)與長期(外部儲存)
  4. 反思 – 根據回饋或錯誤進行自我修正
  5. 協調 – 協調多個子 Agent 進行平行工作

何時使用 Agent

任務涉及多步驟推理(研究、編程、除錯)、工具整合(檔案操作、API 呼叫、資料庫查詢)、build → test → fix 的反覆迭代,或跨會話的長時間工作流程時,就適合用 Agent。單純的問答或一次性內容生成,一次標準的 LLM 呼叫通常就夠。若想看到 agent loop 在實際開發工具中的運作,可參考 Claude Code:實際操作中的 agentic CLI


單一 Agent vs. 多 Agent

架構 適用場景 權衡
單一 Agent 專注任務、較簡單的協調 有限的平行處理
多 Agent 複雜工作流程、專業角色分工 較高的協調開銷

需要不同角色分工(規劃者、編碼者、審查者)或任務可以平行化時,再考慮多 Agent。Anthropic 的《Building effective agents》(2024) 建議先從單一 Agent 開始,只有當具體權衡值得付出額外的協調成本時,才升級為多 Agent 架構。Azure 上的實際範例,請見 OpenClaw — Azure 上的多 Agent 參考實作


相關資源