LangSmith: Redesigned product homepage and Resource Tags for better organization

LangSmith:重新设计的产品主页和资源标签,以实现更好的组织

LangSmith 的主页现在分为可观测性、评估和提示工程三个部分。了解我们为何这样组织主页。此外,请查看我们最新的资源标签更新。

4 分钟阅读

今天,我们很高兴发布重新设计的 LangSmith 产品主页,以及改进的工作区内资源组织支持。这些更新反映了我们对工程团队如何构建、优化和迭代其 LLM 应用程序的持续深入了解。在这篇文章中,我们将介绍我们更新的理念以及它们如何指导我们的设计。

我们重新设计 LangSmith 主页的方法

通过与数千名开发者和公司合作,我们观察到他们在构建 LLM 应用程序时主要在三个领域工作:可观测性、评估和提示工程。为了反映每个领域在有效开发者工作流程中发挥的关键作用,我们将 LangSmith 产品主页 分为这三个领域。

可观测性

LangSmith 的这一部分包括追踪项目和仪表板。

对于 AI 工程师来说,最大的建议之一是“查看您自己的数据”——而 LangSmith 通过帮助用户识别问题并了解其 LLM 应用程序随时间的性能来实现这一点。

追踪项目是您的 AI 应用程序发出的追踪集合。在此页面内,您可以搜索和筛选追踪,然后点击特定追踪以获得更详细的视图。这种数据点级别的可观测性对于了解您的应用程序中发生的事情至关重要,以便您可以快速调试和识别问题。

仪表板允许您创建自定义监控图表,以跟踪对您的应用程序最重要的指标随时间的变化。这包括成本、延迟和质量等基本指标,以及更具体的标准,例如代理操作随时间的变化或实时评估分数。

我们的可观测性功能旨在帮助用户在 LLM 应用程序生命周期的每一步进行优化——从开发中的详细调试到生产中大规模的性能监控。

评估

LangSmith 的这一部分包括数据集、实验和标注队列。

评估您的 LLM 应用程序通常是开发中的瓶颈。高质量、持续的评估(或“evals”)帮助开发者了解其应用程序的性能如何,并找出需要改进的领域。 LangSmith Evaluation 消除了猜测,突出了在准确性、风格和其他关键标准方面的退步或改进。

首先,LangSmith 使策划数据集变得容易。用户可以导入现有数据,或从 LangSmith 可观测性部分的日志中自动添加数据点。然后,您可以在这些数据集上运行实验,使用自动评估器对结果进行评分,并随时间跟踪这些结果。

人工审核仍然是评估 LLM 应用程序的关键部分,LangSmith 通过标注队列简化了这一过程。使用标注队列,用户可以组织和管理需要人工审核的数据点,简化审核人员的工作流程,并确保一致、高质量的反馈。

提示工程

LangSmith 的这一部分包括提示和 Playground。

有效的提示工程对于构建响应迅速且可靠的 LLM 应用程序至关重要。 LangSmith 使 用戶能够存储和版本化提示,从而轻松跟踪其演变并与团队成员无缝协作。

此外,LangSmith 中的 Playground 允许用户实时迭代提示。用户可以针对单个数据点或整个数据集运行提示,以评估其大规模的影响。 Playground 还允许并排比较不同提示和模型组合的性能。

提示工程是我们有兴趣突破界限的领域。 “提示工程的 IDE” 真正应该是什么样子?我们正在深入研究这个问题,重新构想提示工程师所需的工具,并且我们很高兴很快分享我们的一些想法。

入门指南

为了帮助新用户快速入门,我们还在主页顶部添加了入门指南,涵盖了可观测性、评估和提示工程。

通过资源标签改进资源组织

在 LangSmith 中,工作区旨在分隔资源,并为组织内不同的团队或业务部门提供专用环境。然而,随着团队在 LangSmith 中的发展,工作区内对更好资源组织的需求也随之增长。今年早些时候,我们推出了 资源标签,以增强资源分组和可访问性。

在 LangSmith 中创建新的资源标签

现在,我们使资源标签更加直观和灵活。在一个典型的应用程序中,您可能有多个用于不同 LLM 管道的追踪项目、各种数据集、大量提示和大量标注队列。我们的目标是简化这些资源如何进行逻辑分组和访问。

最初,我们考虑引入严格的“应用程序”概念,其中每个资源都属于单个应用程序。然而,用户体验研究表明,这过于僵化;用户通常需要资源跨越多个项目,或者希望按环境(例如,开发、暂存或生产)而不是仅按项目来组织资源。

资源标签现在提供这种可自定义的分组。您可以默认按“应用程序”筛选,或者只创建和按适合您工作流程的自定义标签筛选。这种灵活性支持各种组织需求,包括基于环境的分隔,使资源易于查找和管理。

按“应用程序”或自定义标签筛选
按“应用程序”组织的资源视图 - 在这种情况下,它显示 chat-langchain 应用程序的资源。

为了进一步增强安全性和自定义性,我们很快将为资源标签引入基于属性的访问控制 (ABAC)。此功能将使团队能够对访问进行细粒度控制,以根据特定的标签属性分配条件权限,从而使用户可以安全地跨不同项目和环境组织和访问资源。

试用 LangSmith

立即访问 smith.langchain.com 探索新的 LangSmith 主页和功能 — 并通过应用内反馈表单告知我们您的想法。