今天,我们激动地宣布 LangSmith 全面上市 —— 我们的 LLM 应用开发、监控和测试解决方案。我们最初于 2023 年 7 月推出了 LangSmith 的封闭 Beta 版。从那时起,我们收到了早期用户和客户的宝贵反馈,并根据他们的意见对平台进行了重大改进。我们还在基础设施方面进行了大量投资,以确保平台能够无缝扩展,适应我们快速增长的用户群。如果您想亲自体验 LangSmith,请立即注册。我们已取消候补名单,因此您可以立即开始构建。我们希望您喜欢它。
在 LangSmith 全面上市的同时,我们还宣布完成了由 红杉资本领投的 2500 万美元 A 轮融资。我们非常高兴能与 Sonya Huang 和红杉资本团队的其他成员合作,共同构建我们设想的未来。我们也在招聘;如果您认为您可以在我们的团队中发挥作用,请查看我们的空缺职位并与我们联系。
自 LangSmith 推出以来,我们已经看到
- 超过 8 万次注册
- 超过 5 千个每月活跃团队
- 仅在一月份就记录了超过 4000 万条追踪记录
LangSmith 现在受到包括 Rakuten、Elastic、Moody’s、Retool 等公司在内的顶尖 LLM 构建团队的信任。
Elastic 产品管理总监 James Spiteri 分享道:“LangChain 和 LangSmith 对我们应用的影响是巨大的。如果没有 LangChain,我们根本无法交付最初的产品体验,如果没有 LangSmith,我们也不可能以我们现在的速度完成交付。”
LangSmith 支持从原型设计到生产的开发
我们从用户那里了解到在使用 LLM 构建应用时常见的痛点,并且我们正在解决这些痛点,无论您是否使用 LangChain 构建应用。在本文的其余部分,我们将重点介绍 LangSmith 支持的广泛工作流程,以及它们如何融入应用开发的每个阶段。我们希望这将帮助用户了解如何最好地利用我们的平台,或者如果您刚刚开始您的旅程,可以为您提供一些思考方向。

原型设计
LLM 应用的原型设计通常涉及在提示词、模型类型、检索策略和其他参数之间进行快速实验。快速了解模型性能以及调试模型失败之处的能力对于此阶段至关重要。
调试
在开发新的 LLM 应用时,我们建议默认启用 LangSmith 追踪。通常,无需查看每条追踪记录。但是,当出现问题时(意外的最终结果、无限代理循环、执行速度低于预期、令牌使用量高于预期),通过查看应用追踪记录进行调试非常有帮助。LangSmith 在 LLM 序列的每个步骤都提供清晰的可视性和调试信息,从而更容易识别和找出根本原因。我们提供聊天消息、函数和检索文档的原生渲染。
检查 LLM 应用运行的追踪记录
初始测试集
虽然许多开发人员仍然根据“感觉检查”来发布应用的初始版本,但我们已经看到越来越多的工程团队开始采用更以测试驱动的方法。LangSmith 允许开发人员创建数据集,即输入和参考输出的集合,并使用这些数据集在其 LLM 应用上运行测试。这些测试用例可以批量上传、即时创建或从应用追踪记录中导出。LangSmith 还使运行自定义评估(基于 LLM 和启发式方法)来对测试结果进行评分变得容易。
检查测试用例和测试运行
对比视图
当原型设计不同版本的应用并进行更改时,重要的是查看您是否在初始测试用例方面有所退步。通常,提示词、检索策略或模型选择的更改可能会对应用产生的响应产生巨大影响。为了了解哪个变体表现更好,能够并排查看同一数据点上不同配置的结果非常有用。我们已在用户友好的测试运行对比视图上投入了大量资金,以跟踪和诊断应用多个版本之间测试分数的回退。
并排查看测试运行
Playground
LangSmith 提供了一个 Playground 环境,用于快速迭代和实验。这使您可以快速测试不同的提示词和模型。您可以从追踪记录中的任何提示词或模型运行中打开 Playground。每个 Playground 运行都会记录在系统中,并可用于创建测试用例或与其他运行进行比较。
在 Playground 中打开一个运行
Beta 测试
Beta 测试使开发人员能够收集更多关于其 LLM 应用在真实场景中表现如何的数据。在此阶段,重要的是了解应用在哪些类型的输入上表现良好或较差,以及在这些情况下它具体是如何崩溃的。反馈收集和运行注释对于此工作流程至关重要。这将有助于策划测试用例,这些用例可以帮助跟踪回归/改进和开发自动评估。
收集反馈
在向初始用户群发布应用时,收集用户对其产生的响应的人工反馈非常重要。这有助于引起人们对最有趣的运行的关注,并突出显示导致问题响应的边缘情况。LangSmith 允许您将反馈评分附加到记录的追踪记录(通常,这会连接到应用中的反馈按钮),然后按具有特定反馈标签和评分的追踪记录进行筛选。一个常见的工作流程是筛选收到不良用户反馈评分的追踪记录,然后使用详细的追踪视图深入研究问题点。
记录来自 ChatLangChain 的追踪记录和反馈评分,在 LangSmith 中查看结果
注释追踪记录
LangSmith 还支持将运行发送到注释队列,这允许注释者仔细检查有趣的追踪记录,并根据不同的标准对其进行注释。注释者可以是产品经理、工程师,甚至是主题 matter 专家。这允许用户捕获跨重要评估标准的回归。
将追踪记录发送到注释队列
将运行添加到数据集
随着您的应用在 Beta 测试阶段的进展,继续收集数据以改进和提高其性能至关重要。LangSmith 使您能够将运行作为示例添加到数据集(从项目页面和注释队列中),从而扩展您在真实场景中的测试覆盖率。这是将您的日志记录系统和评估/测试系统放在同一平台上的一个关键优势。
将运行的输入/输出作为示例添加到数据集
生产
密切检查关键数据点、增长基准数据集、注释追踪记录以及深入研究追踪视图中的重要数据是您在应用投入生产环境后也希望执行的工作流程。但是,尤其是在生产阶段,至关重要的是要获得关于应用性能的高级概述,包括延迟、成本和反馈评分。这确保了它能够大规模交付理想的结果。
监控和 A/B 测试
LangSmith 提供监控图表,允许您随时间跟踪关键指标。您可以展开查看给定时间段的指标,并深入研究特定数据点以获取该时间段的追踪表 —— 这对于调试生产问题特别方便。
该平台还允许标签和元数据分组,这允许用户用不同的标识符标记其应用的不同版本,并在每个图表中并排查看它们的性能。这对于 A/B 测试提示词、模型或检索策略的更改很有帮助。
查看监控图表并按 LLM 类型分组
未来的发展方向
LangSmith 可以在 LLM 应用开发周期的每个阶段为每个重要的工作流程提供帮助。随着我们继续改进和扩展平台,我们未来的发展方向包括
- 支持回归测试
- 能够在生产数据样本上运行在线评估器
- 更好的筛选和对话支持
- 通过托管 LangServe 轻松部署应用
- 企业功能,以支持我们最大客户的管理和安全需求。
要了解有关定价的更多信息,或联系销售,请查看我们的 网站 以获取信息。
我们相信我们正处在一个非常早期、快速发展的行业中,我们的用户信任我们成为他们的向导和合作伙伴。通过 LangSmith 和我们所有的产品,我们努力保持领先地位,并为当今用户的需求进行创新。感谢您与我们一同踏上这段旅程。勇往直前!
