最近发现 Hugging Face 出了一个 AI Agent 的课程,感觉挺有意思的,所以想跟着学一下,顺便分享给大家。

Agent就是LLM吗?

课程中给出了一个生动的例子来解释什么是 Agent:

想象你有一位管家 Alfred。当你说"Alfred,我想喝咖啡"时,会发生什么?

因为 Alfred 理解自然语言,所以他很快就掌握了我们的请求。

在履行订单之前,Alfred 进行推理和计划,思考他需要的步骤和工具:

  • 去厨房
  • 使用咖啡机
  • 冲泡咖啡
  • 把咖啡拿回来

一旦他有了计划,他就必须行动。为了执行他的计划,他可以使用他所知道的工具列表中的工具。在这种情况下,他使用咖啡机来制作咖啡,启动咖啡机来冲泡咖啡,最后把咖啡端回来。

就这样,Alfred 成功给我们制作了咖啡!

这就是代理的定义:一种能够推理计划与环境互动的 AI 模型。

我们称之为 Agent,因为它具有自主性,也就是说它有能力与环境互动。

Agent 的三个核心能力

  1. 理解能力: Alfred 需要理解你的自然语言指令
  2. 规划能力: 他需要知道制作咖啡的步骤
  3. 执行能力: 他要能够操作咖啡机等工具

这正是 AI 智能体的工作方式 - 它不仅要理解指令,还要能够规划和执行具体行动。这与传统的 AI 模型有着本质的区别。

更精确的定义

代理是一个利用人工智能模型与其环境进行交互的系统,以实现用户定义的目标。它结合了推理、规划和执行行动(通常通过外部工具)来完成任务。

智能体的"大脑"与"手脚"

一个完整的智能体系统包含两个关键部分:

1. 决策大脑 (AI 模型)

  • 通常是大语言模型(LLM)
  • 负责理解、推理和决策
  • 例如 GPT-4、Claude、Gemini 等

2. 行动能力 (工具集)

  • API 调用
  • 代码执行
  • 数据处理
  • 外部服务交互

思考: 智能体的能力边界取决于它能使用的工具。就像人类无法飞行是因为没有翅膀,智能体也需要合适的"工具"才能完成特定任务。

实际应用场景

1. 智能客服的进化

传统客服机器人是简单的问答系统,而智能体客服可以:

  • 理解上下文语境
  • 主动收集信息
  • 调用多个系统
  • 持续跟进问题

2. 个人助理的未来

像 Siri 这样的助手正在向真正的智能体演变:

  • 多轮对话理解
  • 任务分解执行
  • 工具协同调用
  • 个性化适应

3. 游戏 NPC 的突破

新一代 NPC 不再是固定脚本:

  • 情境感知对话
  • 动态行为决策
  • 个性特征表现
  • 玩家互动学习

未来展望

我认为现在的大语言模型就像内燃机、电力等基础技术,而智能体就像应用这些基础技术的工具。

Agent 技术正在快速发展,现在好多大公司也在布局这个领域,我们最熟悉的应该就是字节的扣子(Coze)。

随着 LLM 等基础模型的进步和工具生态的完善,智能体将在未来发挥越来越重要的作用。


下一篇文章,我将学习智能体的"大脑" - 大语言模型(LLM)的相关知识。