自ChatGPT出现以来,人工智能(AI)应用程序发展迅速。最初专注于简单交互,现已转向更复杂的系统,称为AI代理。这些代理旨在完成需要推理、规划和使用工具的复杂任务。
在他们的论文« The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey »中,Tula Masterman、Sandi Besen、Mason Sawtell和Alex Chao探讨了这些代理设计的最新进展。他们审视了当前架构、确定了挑战并为未来发展提出了方向。
AI代理的定义
AI代理是一种能够感知环境、推理、规划和采取行动以实现特定目标的自主系统。与传统响应单个查询的模型不同,AI代理可以:
- 规划:制定一系列行动以实现目标。
- 推理:分析信息以做出明智决策。
- 使用工具:与软件或数据库交互以完成任务。
- 记忆:存储和回忆相关信息以备将来使用。
AI代理架构
AI代理架构可分为两大类:
单一代理
单一代理独立工作以完成任务。对于无需协作的明确问题,它特别高效。其优势包括:
- 简单:设计和管理更简单。
- 高效:需要的通信更少,因此更快。
但在需要协作或专业化的复杂环境中,它可能受到限制。
多代理
多代理涉及多个代理协作完成任务。每个代理可能有特定的专长或角色。其优势包括:
- 协作:可将复杂任务分解。
- 灵活性:适应动态环境。IBM – United States
但代理之间的协调可能带来诸如管理通信和解决冲突等挑战。
AI代理的关键组件
AI代理由多个关键组件组成:
- 大脑:做出决策的推理引擎。
- 感知:接收并解释来自环境的信息的能力。
- 行动:与环境或其他系统互动的能力。
- 记忆:存储信息以备将来使用。
此外,代理可能有角色,即影响其行为的定义角色或个性。例如,一个代理可以设置为 »研究助手 »或 »财务分析师 »,从而指导其行为和交互。
推理、规划和使用工具
高级AI代理能够:
- 推理:分析信息以理解复杂情况。
- 规划:制定达成目标的策略。
- 使用工具:与软件或数据库交互以完成特定任务。
例如,一个代理可以使用翻译工具来理解外语文档,然后提取相关信息进行分析。
多代理系统中的通信和领导力
在多代理系统中,通信和领导力至关重要:
- 通信:代理必须有效交换信息以协调行动。
- 领导力:可指定一个代理作为领导,指导其他代理、分配任务并做出战略决策。
研究表明,具有轮换领导力的动态团队结构可提高整体绩效、缩短完成任务所需时间并降低通信成本。
代理运作的关键阶段
AI代理的运作可分为几个阶段:
- 规划:确定实现目标所需的步骤。
- 执行:实施规划的行动。
- 反思:评估所获结果并在必要时调整策略。
这个持续循环使代理能够适应变化的环境并随着时间的推移不断改进。
挑战和未来考虑因素
除了技术方面,作者还强调了几个需要解决的关注领域,以实现这些代理的广泛和负责任的采用:
- 互操作性:在复杂系统中,确保不同(独立开发的)代理能够相互通信至关重要。这需要标准协议。
- 决策可追溯性:当代理建议采取行动或做出决策时,了解其原因和方式很重要。这对于保持用户信任至关重要。
- 公平和偏见:如果训练数据存在偏差,代理可能在其建议中复制甚至放大这些偏差。
- 计算资源:使用大型语言模型(LLM)运行的代理通常运行成本很高,尤其是在多代理协调的环境中。
行业中AI代理的具体示例
该文件引用了几个实验AI代理架构的项目和公司:
- Auto-GPT:能够设定长期目标(例如: »寻找创业点子 »)并自行安排以实现该目标的系统,可调用外部工具、生成内容和创建文件。
- BabyAGI:一个框架,代理可以创建自己的任务列表、执行每个任务,然后根据结果重新评估剩余任务。
- LangGraph和CrewAI:可设计具有特定角色(研究员、规划者、执行者等)的代理并协作工作流的环境。
- OpenAI自定义GPT:可定制的ChatGPT版本,允许用户定义特定工具、目标,甚至跨会话的持久内存。
架构比较表
以下是受该文件启发的现代代理架构方法比较表:
系统名称 | 单一代理或多代理 | 规划能力 | 使用工具 | 推理能力 | 存储管理 |
---|---|---|---|---|---|
Auto-GPT | 单一代理 | 是 | 是 | 中等 | 有限 |
BabyAGI | 单一代理 | 是 | 是 | 低到中等 | 低 |
LangGraph | 多代理 | 是(通过图) | 是 | 高级 | 灵活 |
CrewAI | 多代理 | 是 | 是 | 强(通过专业化) | 良好 |
GPT(OpenAI) | 单一代理 | 部分 | 是 | 中到强 | 持久 |
作者对未来的建议
根据他们的分析,研究人员确定了几个优先发展方向:
- 模块化:将代理分解为可重用组件(例如:规划器、执行器、内存管理器)。
- 透明度:整合解释机制,以证明代理做出决策的原因。
- 稳健性:创建能够在未预期情况下运行而不会出现严重错误的代理。
- 自我评估:整合内部反馈循环,使代理能够评估自身行为或假设的质量。
- 开放互操作性:标准化数据交换格式和API,以促进不同平台代理之间的协作。
因此,AI代理领域正在蓬勃发展。一个软件不仅能够理解目标,还能自我组织以实现目标、与他人互动并从错误中学习,这一概念彻底改变了我们对人工智能的看法。
arXiv:2404.11584文件对这一新兴技术领域进行了严格的勘测。它揭示了当前方法的优缺点,同时为未来几年描绘了前景。AI代理已不再是简单的对话工具,而是成为了一种分布式认知实体:一种能够利用丰富的工具、数据和人工及非人工协作者来构建复杂过程的智能形式。
虽然通往真正 »通用 »代理的道路依然漫长,但近几个月的进展表明,我们已进入AI代理化时代。现在的任务是使之成为一种负责任、道德且对大众有益的技术。