Agent 的用户体验，第一部分：聊天

在三月份红杉资本的 AI Ascent 会议上，我谈到了 Agent 的三个局限性：规划、用户体验和记忆。查看这里的演讲。在这篇文章中，我将更深入地探讨 Agent 的用户体验。感谢 LangChain 创始工程师 Nuno Campos 在此提供的许多原始想法和类比。

由于 Agent 的用户体验有很多不同的方面，这个主题将分为三篇独立的博客文章。这是本系列的第一篇。

人机交互多年来一直是一个备受研究的领域。我相信在未来几年，人机交互也将成为一个关键的研究领域。

Agent 系统与过去的传统计算机系统不同，因为它们面临着来自延迟、不可靠性和自然语言界面的新挑战。因此，我坚信，与这些 Agent 应用程序交互的新 UI/UX 范例将会出现。

虽然 Agent 系统仍处于早期阶段，但我认为正在涌现多种用户体验范例。在这篇博客中，我们将讨论迄今为止可能最主流的用户体验：聊天。

流式聊天

“流式聊天”用户体验是目前最主流的用户体验。这很简单，就是一个 Agent 系统，以聊天格式流式传输其想法和操作——ChatGPT 是最流行的例子。这种交互模式看起来很基础，但实际上有几个优点。

“编程” LLM 的主要方法是使用自然语言。在聊天中，您直接通过自然语言与 LLM 交互。这意味着您和 LLM 之间几乎没有障碍。

💡

在某些方面，流式聊天是早期计算机的“终端”。

终端（尤其是在早期计算机中）提供了对底层操作系统的更低级别和更直接的访问。但随着时间的推移，计算机已转向更多基于 UI 的交互。流式聊天可能与之类似——它是我们构建的与 LLM 交互的第一种方式，并且提供了对底层 LLM 的相当直接的访问。随着时间的推移，可能会出现其他用户体验（就像计算机变得更加基于 UI 一样）——但低级别访问具有显着的好处，尤其是在开始时！

流式聊天非常棒的原因之一是 LLM 可能需要一段时间才能工作。流式传输使用户能够准确了解底层发生的情况。您可以流式传输 LLM 采取的中间操作（他们采取的操作以及结果）以及 LLM “思考”时的令牌。

流式聊天的另一个好处是 LLM 经常会出错。聊天提供了一个很好的界面来自然地纠正和引导它！我们已经非常习惯通过聊天进行后续对话和迭代讨论。

尽管如此，流式聊天也有其缺点。首先——流式聊天是一种相对较新的用户体验，因此我们现有的聊天平台（iMessage、Facebook Messenger、Slack 等）没有内置这种模式。其次，对于长时间运行的任务来说，这有点尴尬——我只是要坐在那里看着 Agent 工作吗？第三，流式聊天通常需要由人类触发，这意味着人类仍然非常参与其中。

非流式聊天

称之为“非流式”聊天感觉很奇怪，因为在两年前我们只会称之为“聊天”——但事实就是如此。非流式聊天具有与流式聊天相同的许多属性——它相当直接地向用户公开 LLM，并且允许非常自然的纠正。

非流式聊天的最大区别在于响应以完整的批次返回，这有利有弊。主要的缺点是您看不到底层发生了什么，让您一头雾水。

但是……这真的可以吗？

Linus Lee 最近在“委托”方面有一些很棒的想法，我真的很喜欢。只是一个片段来说明

我特意将界面构建得尽可能不透明。

他认为，不透明的界面需要一定的信任，但一旦建立，您就可以仅将任务委托给 Agent，而无需进行微观管理。这种异步性质也适用于长时间运行的任务——这意味着 Agent 为您做更多的工作。

假设信任已经建立，这看起来不错。但它也引发了其他问题。例如，您如何处理“重复发短信”——用户发送一次消息，Agent 开始做某事，然后用户在 Agent 完成其任务之前再次发送消息，其中包含不同的（有时是不相关的）想法。使用流式聊天，您通常不会遇到这个问题，因为 Agent 的流式传输会阻止用户输入新输入。

非流式聊天用户体验的优点之一是它对我们来说也更原生，这意味着它可能更容易集成到现有工作流程中。人们习惯于给人类发短信——为什么他们不能轻松适应与 AI 发短信呢？

💡

非流式聊天的另一个巨大好处是，AI 响应时间较长通常是可以接受的。

这通常是因为非流式聊天更原生化地集成到我们现有的工作流程中。我们不期望我们的朋友立即回复我们的短信——我们为什么要期望 AI 这样做呢？这使得与更复杂的 Agent 系统进行交互变得更容易——这些系统通常需要一段时间，如果期望立即响应，可能会令人沮丧。非流式聊天通常消除了这种期望，从而更容易完成更复杂的事情。

最初看起来流式传输比标准聊天更新颖、更华丽、更具未来感……但随着我们越来越信任我们的 Agent 系统，这种情况会逆转吗？