在三月份红杉资本的 AI Ascent 会议上,我谈到了 Agent 的三个局限性:规划、用户体验和记忆。查看这里的演讲。在这篇文章中,我将更深入地探讨 Agent 的用户体验。感谢 LangChain 创始工程师 Nuno Campos 在此提供的许多原始想法和类比。
由于 Agent 的用户体验有很多不同的方面,这个主题将分为三篇独立的博客文章。这是本系列的第一篇。
人机交互多年来一直是一个备受研究的领域。我相信在未来几年,人机交互也将成为一个关键的研究领域。
Agent 系统与过去的传统计算机系统不同,因为它们面临着来自延迟、不可靠性和自然语言界面的新挑战。因此,我坚信,与这些 Agent 应用程序交互的新 UI/UX 范例将会出现。
虽然 Agent 系统仍处于早期阶段,但我认为正在涌现多种用户体验范例。在这篇博客中,我们将讨论迄今为止可能最主流的用户体验:聊天。
流式聊天
“流式聊天”用户体验是目前最主流的用户体验。这很简单,就是一个 Agent 系统,以聊天格式流式传输其想法和操作——ChatGPT 是最流行的例子。这种交互模式看起来很基础,但实际上有几个优点。
“编程” LLM 的主要方法是使用自然语言。在聊天中,您直接通过自然语言与 LLM 交互。这意味着您和 LLM 之间几乎没有障碍。
终端(尤其是在早期计算机中)提供了对底层操作系统的更低级别和更直接的访问。但随着时间的推移,计算机已转向更多基于 UI 的交互。流式聊天可能与之类似——它是我们构建的与 LLM 交互的第一种方式,并且提供了对底层 LLM 的相当直接的访问。随着时间的推移,可能会出现其他用户体验(就像计算机变得更加基于 UI 一样)——但低级别访问具有显着的好处,尤其是在开始时!
流式聊天非常棒的原因之一是 LLM 可能需要一段时间才能工作。流式传输使用户能够准确了解底层发生的情况。您可以流式传输 LLM 采取的中间操作(他们采取的操作以及结果)以及 LLM “思考”时的令牌。
流式聊天的另一个好处是 LLM 经常会出错。聊天提供了一个很好的界面来自然地纠正和引导它!我们已经非常习惯通过聊天进行后续对话和迭代讨论。
尽管如此,流式聊天也有其缺点。首先——流式聊天是一种相对较新的用户体验,因此我们现有的聊天平台(iMessage、Facebook Messenger、Slack 等)没有内置这种模式。其次,对于长时间运行的任务来说,这有点尴尬——我只是要坐在那里看着 Agent 工作吗?第三,流式聊天通常需要由人类触发,这意味着人类仍然非常参与其中。
非流式聊天
称之为“非流式”聊天感觉很奇怪,因为在两年前我们只会称之为“聊天”——但事实就是如此。非流式聊天具有与流式聊天相同的许多属性——它相当直接地向用户公开 LLM,并且允许非常自然的纠正。
非流式聊天的最大区别在于响应以完整的批次返回,这有利有弊。主要的缺点是您看不到底层发生了什么,让您一头雾水。
但是……这真的可以吗?
Linus Lee 最近在“委托”方面有一些很棒的想法,我真的很喜欢。只是一个片段来说明
我特意将界面构建得尽可能不透明。
他认为,不透明的界面需要一定的信任,但一旦建立,您就可以仅将任务委托给 Agent,而无需进行微观管理。这种异步性质也适用于长时间运行的任务——这意味着 Agent 为您做更多的工作。
假设信任已经建立,这看起来不错。但它也引发了其他问题。例如,您如何处理“重复发短信”——用户发送一次消息,Agent 开始做某事,然后用户在 Agent 完成其任务之前再次发送消息,其中包含不同的(有时是不相关的)想法。使用流式聊天,您通常不会遇到这个问题,因为 Agent 的流式传输会阻止用户输入新输入。
非流式聊天用户体验的优点之一是它对我们来说也更原生,这意味着它可能更容易集成到现有工作流程中。人们习惯于给人类发短信——为什么他们不能轻松适应与 AI 发短信呢?
这通常是因为非流式聊天更原生化地集成到我们现有的工作流程中。我们不期望我们的朋友立即回复我们的短信——我们为什么要期望 AI 这样做呢?这使得与更复杂的 Agent 系统进行交互变得更容易——这些系统通常需要一段时间,如果期望立即响应,可能会令人沮丧。非流式聊天通常消除了这种期望,从而更容易完成更复杂的事情。
最初看起来流式传输比标准聊天更新颖、更华丽、更具未来感……但随着我们越来越信任我们的 Agent 系统,这种情况会逆转吗?
除了聊天还有更多吗?
由于这只是三部分系列的第一部分,我们相信除了聊天之外,还有更多用户体验需要考虑。尽管如此——值得提醒的是,聊天是一种非常好的用户体验,并且它被如此广泛使用是有原因的。
聊天的优点
- 允许用户直接与模型交互
- 允许轻松进行后续问题和/或更正
流式聊天与非流式聊天的优缺点
