今天,我们非常高兴地宣布 LangSmith 正式发布——我们的 LLM 应用程序开发、监控和测试解决方案。我们于 2023 年 7 月首次推出 LangSmith 的封闭测试版。从那时起,我们收到了来自早期用户和客户的宝贵反馈,并根据他们的意见对平台进行了重大改进。我们还在基础设施方面进行了大量投资,以确保平台能够无缝扩展以适应我们快速增长的用户群。如果您想亲身体验 LangSmith,请立即 注册。我们已经取消了等待名单,因此您可以立即开始构建。希望您喜欢它。
除了 LangSmith 正式发布之外,我们还宣布 获得红杉资本领投的 2500 万美元 A 轮融资。我们非常高兴能与 Sonya Huang 和红杉团队的其他成员一起构建我们设想的未来。我们也在招聘;如果您认为自己可以在我们的团队中发挥作用,请 查看我们的空缺职位 并与我们联系。
自推出 LangSmith 以来,我们已经看到了
- 超过 8 万次注册
- 超过 5000 个月活跃团队
- 仅 1 月份就记录了超过 4000 万条跟踪信息
LangSmith 现已获得 Rakuten、Elastic、穆迪、Retool 等众多使用 LLM 构建最佳团队的公司的信赖。
Elastic 产品管理总监 James Spiteri 分享道:“LangChain 和 LangSmith 对我们应用程序的影响是巨大的。如果没有 LangChain,我们根本无法交付产品体验,而如果没有 LangSmith,我们也无法以如此快的速度交付。”
LangSmith 支持从原型设计到生产的开发
我们从用户那里了解到使用 LLM 构建应用程序时常见的痛点,无论您是否使用 LangChain,我们都在解决这些痛点。在本文的其余部分,我们将重点介绍 LangSmith 支持的工作流程范围以及它们如何适应应用程序开发生命周期的每个阶段。我们希望这将指导用户如何最好地利用我们的平台,或者如果您刚刚开始您的旅程,可以为您提供一些思考。
原型设计
LLM 应用程序的原型设计通常涉及在提示、模型类型、检索策略和其他参数之间进行快速实验。能够快速了解模型的性能——以及调试其失败之处——对于这个阶段至关重要。
调试
在开发新的 LLM 应用程序时,我们建议默认启用 LangSmith 跟踪。通常,不需要查看每一条跟踪信息。但是,当出现问题时(意外的结果、无限代理循环、比预期慢的执行、比预期高的令牌使用量),通过查看应用程序跟踪信息进行调试非常有帮助。LangSmith 在 LLM 序列的每个步骤中提供了清晰的可视性和调试信息,从而更容易识别和找到问题的根本原因。我们提供聊天消息、函数和检索文档的原生渲染。
初始测试集
虽然许多开发人员仍然根据“感觉检查”发布应用程序的初始版本,但我们看到越来越多的工程团队开始采用更具测试驱动的方案。LangSmith 允许开发人员创建数据集(即输入和参考输出的集合),并使用这些数据集对他们的 LLM 应用程序运行测试。这些测试用例可以批量上传、即时创建或从应用程序跟踪信息中导出。LangSmith 还使运行自定义评估(基于 LLM 和启发式)以对测试结果进行评分变得容易。
比较视图
在对应用程序的不同版本进行原型设计并进行更改时,了解您是否相对于初始测试用例出现了倒退非常重要。通常,提示、检索策略或模型选择的更改会对应用程序生成的响应产生巨大影响。为了了解哪个变体性能更好,最好能够并排查看不同配置在相同数据点上的结果。我们对测试运行的用户友好型比较视图进行了大量投资,以跟踪和诊断应用程序多个修订版本中测试分数的倒退。
游乐场
LangSmith 提供了一个游乐场环境,用于快速迭代和实验。这使您可以快速测试不同的提示和模型。您可以从跟踪中的任何提示或模型运行中打开游乐场。每个游乐场运行都记录在系统中,可用于创建测试用例或与其他运行进行比较。
Beta 测试
Beta 测试允许开发人员收集更多关于他们的 LLM 应用程序在现实场景中表现如何的数据。在此阶段,了解应用程序在哪些类型的输入上表现良好或不佳以及它在这些情况下是如何崩溃的非常重要。反馈收集和运行注释对于此工作流程至关重要。这将有助于整理测试用例,以帮助跟踪倒退/改进和开发自动评估。
收集反馈
当将您的应用程序发布给初始用户组时,收集他们对应用程序生成的响应的人工反馈非常重要。这有助于引起人们对最有趣的运行的注意,并突出导致问题响应的极端情况。LangSmith 允许您将反馈分数附加到已记录的跟踪信息(通常,这与应用程序中的反馈按钮挂钩),然后过滤具有特定反馈标签和分数的跟踪信息。一个常见的工作流程是过滤接收不良用户反馈分数的跟踪信息,然后使用详细的跟踪视图深入分析问题点。
注释跟踪
LangSmith 还支持将运行发送到注释队列,允许注释者仔细检查有趣的跟踪信息并根据不同的标准对其进行注释。注释者可以是 PM、工程师,甚至主题专家。这允许用户捕获跨重要评估标准的倒退。
将运行添加到数据集
随着您的应用程序在 Beta 测试阶段的进行,持续收集数据以改进其性能至关重要。LangSmith 使您能够将运行作为示例添加到数据集中(从项目页面和注释队列中),扩展您对现实场景的测试覆盖范围。这使得您的日志系统和评估/测试系统位于同一平台中成为一个关键优势。
生产
仔细检查关键数据点、扩展基准数据集、注释跟踪信息以及深入分析跟踪视图中的重要数据是应用程序进入生产后也需要执行的工作流程。但是,尤其是在生产阶段,至关重要的是要获得应用程序在延迟、成本和反馈分数方面的高级性能概览。这确保它能够大规模交付理想的结果。
监控和 A/B 测试
LangSmith 提供监控图表,允许您跟踪一段时间内的关键指标。您可以扩展以查看给定期间的指标,并深入分析特定数据点以获取该期间的跟踪表——这对于调试生产问题特别有用。
该平台还允许进行标签和元数据分组,这允许用户使用不同的标识符标记应用程序的不同版本,并在每个图表中并排查看它们的性能。这对于 A/B 测试提示、模型或检索策略的更改很有帮助。
未来的道路
LangSmith 可以帮助在 LLM 应用程序开发周期的每个阶段完成每个重要的工作流程。随着我们继续改进和扩展平台,我们的未来方向包括
- 支持回归测试
- 能够在生产数据的样本上运行在线评估器
- 更好的过滤和对话支持
- 使用托管的 LangServe 轻松部署应用程序
- 企业级功能,以支持我们最大客户的管理和安全需求。
要了解有关定价的更多信息,或联系销售人员,请查看我们的 网站 获取信息。
我们相信我们正处于一个非常早期、发展非常迅速的行业,我们的用户信任我们成为他们的指南和合作伙伴。凭借 LangSmith 及我们所有的产品,我们努力走在行业前沿,并为我们用户的当前需求进行创新。感谢您与我们一起踏上这段旅程。前进!