Improving Memory Retrieval: How New Computer achieved 50% higher recall with LangSmith

提升记忆检索能力:New Computer 如何通过 LangSmith 将召回率提高 50%

New Computer 使用 LangSmith 改进了他们的记忆检索系统,通过在比较视图中跟踪回归并相应地调整对话提示,实现了 50% 更高的召回率。

4 分钟阅读

关于 New Computer

New Computer 是 Dot 背后的团队,Dot 是首个旨在真正理解用户的个人 AI。Dot 的长期记忆系统通过观察语言和行为线索,随着时间的推移学习用户的偏好。Dot 的记忆系统不仅仅是召回——它不断发展其对用户是谁的理解,以便提供及时和个性化的帮助,从而创造出真正理解的感知。

借助 LangSmith,New Computer 已经能够测试和改进他们的记忆检索系统,与之前动态记忆检索的基线实现相比,实现了 50% 更高的召回率40% 更高的精度

Dot 的 Agentic 记忆的简要概述

New Computer 团队构建了一个创新的、首创的 Agentic 记忆系统。与依赖于静态文档集的标准 RAG 方法不同,Agentic 记忆涉及动态创建或预计算稍后才会检索的文档。这意味着信息必须在记忆创建期间进行结构化,以便使检索成为可能,并且随着记忆随时间累积,保持准确和高效。

除了原始内容外,Dot 的记忆还拥有一组可选的“元字段”,这些字段对于检索很有用。这些字段包括状态(例如 COMPLETED 或 IN PROGRESS)和日期时间字段,如开始日期或截止日期。这些可以用作检索期间高频查询的附加过滤方法,例如“我这周想完成哪些任务?”,或“我今天还剩下什么要完成?”

使用 LangSmith 改进记忆检索

凭借其多样化的检索方法——语义、关键词、BM25、元字段过滤技术中的一种或多种——New Computer 需要一种新的方法来在标记示例数据集上快速迭代。为了在保护用户隐私的同时测试性能,他们通过创建一组具有 LLM 生成的背景故事的合成用户来生成合成数据。在为每个合成用户进行初始对话以播种记忆数据库后,团队开始将查询(合成用户的消息)以及 LangSmith 数据集中所有可用的记忆存储起来。

New Computer 团队使用连接到 LangSmith 的内部工具,为每个查询标记了相关的记忆,并定义了诸如精度、召回率和 F1 等评估指标,使他们能够快速迭代以改进 Agentic 记忆系统的检索。

对于这组实验,他们从一个简单的基线系统开始,该系统使用语义搜索,为每个查询检索固定数量的最相关的记忆。然后,他们测试了其他技术来评估不同查询类型的性能。在某些情况下,相似性搜索或关键词方法(如 BM25)效果更好;在另一些情况下,这些方法需要通过元字段进行一些预过滤才能有效执行。

正如您可能想象的那样,并行运行这些多种方法可能会导致实验的组合爆炸——因此,在多样化的数据集上快速验证不同的方法对于取得进展至关重要。LangSmith 易于使用的 SDK 和 Experiments UI 使 New Computer 能够快速高效地运行、评估和检查这些实验的结果。

New Computer 在 LangSmith 中运行的不同实验的 F1 性能概述

这些实验使 New Computer 能够显著改进他们的记忆系统,与之前动态记忆检索的基线实现相比,实现了 50% 更高的召回率和 40% 更高的精度。

使用 LangSmith 调整对话提示

Dot 的响应由动态对话提示生成——这意味着除了包含相关记忆外,系统还可能依赖于工具使用(例如搜索结果)和高度上下文的行为指令,以便以准确和自然的方式做出响应。

开发像这样高度可变的系统可能具有挑战性,因为改进一个查询的更改可能会对其他查询产生不利影响。

为了优化提示,New Computer 团队再次使用了一组合成用户来生成针对各种意图的用户查询。然后,他们能够在 LangSmith 的实验 比较视图 中轻松检查提示更改的全局影响。这使他们能够以高度可视化的方式识别源自提示更改的回归运行。

此外,在输出不准确的失败案例中,团队可以直接在 LangSmith UI 中使用内置的提示游乐场调整提示,而无需离开界面。这大大提高了团队在评估和调整对话提示时的迭代速度。

New Computer 的下一步是什么

随着 New Computer 致力于深化人机关系,团队不断寻求方法,使用户感到真正被感知和理解。这包括使 Dot 能够适应用户的对话或语气偏好,或者通过主动向用户发送定制消息,在每个用户的基础上完全定制化。

他们最近的发布带来了一波新的用户——其中超过 45% 的用户在达到免费消息限制后转换为应用程序的付费层级——他们期望 Dot 随着时间的推移与他们一起成长和发展。New Computer 与 LangChain 团队的合作以及 LangSmith 的使用,对于团队如何使用新型 AI 材料来模拟与人类用户不断深化的关系的复杂性仍然至关重要。