How Podium optimized agent behavior and reduced engineering intervention by 90% with LangSmith

Podium 如何通过 LangSmith 优化代理行为,并将工程干预减少 90%

了解 Podium 如何在其 AI 员工代理的生命周期开发中进行测试,使用 LangSmith 进行数据集管理和微调。他们将代理 F1 响应质量提高到 98%,并将工程干预需求减少了 90%。

5 分钟阅读

关于 Podium

Podium 是一个通信平台,帮助小型企业通过电话、短信、电子邮件和社交媒体快速与客户联系。小型企业通常与客户进行高接触互动——例如汽车经销商、珠宝商、自行车商店——但人员不足。Podium 的使命是帮助这些企业及时回复客户咨询,以便他们可以将潜在客户转化为销售额。

Podium 数据显示,在 5 分钟内回复客户咨询比在一小时内回复潜在客户转化率高 46%。为了提高潜在客户捕获率,Podium 推出了 AI 员工,他们的代理应用程序(和旗舰产品),用于与本地企业客户互动、安排预约和完成销售。

最初,Podium 使用 LangChain 框架进行单轮交互。随着他们的代理用例对于范围广泛的客户和领域变得更加复杂,Podium 需要更好地了解他们的 LLM 调用和交互——并转向 LangSmith 进行 LLM 测试和可观察性。

跨代理开发生命周期进行测试

建立反馈循环对于 Podium 的代理开发生命周期尤为重要。LangSmith 使 Podium 工程师能够测试和持续监控其 AI 员工的性能,将新的边缘案例添加到他们的数据集中,以便随着时间的推移改进和测试模型。

Podium 的测试方法如下:

  1. 基线数据集管理: 创建一个初始数据集,以表示代理的基本用例和需求。这作为测试和开发的基础。
  2. 基线离线评估: 在交付生产之前,使用管理的数据集进行初始测试,以评估代理针对基本要求的性能。
  3. 收集反馈:
    1. 用户提供的反馈: 收集与代理交互的用户的直接输入。
    2. 在线评估: 使用 LLM 自我评估和监控实时响应质量,标记潜在问题以进行进一步调查。
  4. 优化:
    1. 提示调整: 改进用于指导代理响应的提示。
    2. 检索调整: 调整用于生成响应的检索机制。
    3. 模型微调: 使用跟踪数据进一步训练和专门化模型以执行特定任务。
  5. 持续评估:
    1. 离线评估: 使用回溯测试、成对比较和其他测试方法评估代理的性能并识别优化机会。
    2. 数据集管理: 不断更新和扩展测试数据集,包含新的场景和边缘案例以进行回归测试,确保新更改不会对现有功能产生负面影响。
Podium 如何为其代理创建测试循环

使用 LangSmith 进行数据集管理和微调代理

在使用 LangSmith 之前,理解客户咨询以及员工应采取哪些步骤来解决咨询非常困难,因为 Podium 工程师每次交互会进行 20-30 次 LLM 调用。借助 LangSmith,他们可以快速完成设置、记录和查看跟踪,以汇总见解。

Podium 的 AI 员工遇到的一个具体挑战是,代理难以识别对话何时自然结束,导致重复出现尴尬的告别语。为了解决这个问题,Podium 首先在 LangSmith 中创建了一个包含各种对话场景的数据集,包括不同对话可能结束的方式。

他们的工程团队随后发现升级到更大的模型很有帮助,将输出管理到更小的模型中(使用一种称为模型蒸馏的技术)。升级他们的模型很顺利,因为模型输入和输出会自动捕获在 LangSmith 的跟踪中,使团队可以轻松地管理数据集。

Podium 工程师还在 LangSmith 跟踪中丰富了有关客户资料、业务类型和对其业务重要的其他参数的元数据。他们在 LangSmith 中使用特定标识符对跟踪进行分组,从而在数据管理期间轻松聚合相关跟踪。这种丰富的数据使 Podium 能够创建更高质量和更平衡的数据集,从而改进模型微调并帮助他们避免过拟合。

借助这个平衡的数据集,Podium 团队随后使用 成对评估 将微调模型的结果与原始的更大模型的结果进行了比较。这种比较使他们能够评估升级后的模型在多大程度上可以提高代理了解何时结束对话的能力。

经过微调后,Podium 的新模型在检测代理自然对话应该结束的位置方面显示出显着改进。Podium 的微调模型的 F1 分数提高了 7.5%,从 91.7% 提高到 98.6%,超过了他们 98% 的质量阈值。

为 AI 平台提供高质量的客户支持,无需工程干预

在 Podium,工程师必须了解何时与客户的沟通出现问题,以便他们可以继续交付可靠且高质量的产品。

自从 1 月份公开推出他们的 AI 员工以来,Podium 的技术产品专家 (TPS) 实时排除用户遇到的问题变得至关重要。在 Podium,TPS 团队通常为其小型企业客户提供客户支持。然而,查明问题的根源(以及如何采取行动)具有挑战性。

让 TPS 团队访问 LangSmith 提供了清晰度,使团队能够快速识别客户报告的问题并确定:“此问题是由应用程序中的错误、不完整的上下文、错位的指令还是 LLM 问题引起的?”

对于 Podium 而言,识别客户问题的类型可以指导他们采取适当的干预措施

  • 对于应用程序中的错误:这些是编排失败,例如集成未能返回数据。这些需要工程干预。
  • 对于不完整的上下文: LLM 缺少回答问题所需的信息。这些可以通过 TPS 团队添加额外内容来补救。
  • 对于错位的指令: 指令基于业务需求;需求中的任何问题都可能影响代理行为。这些可以通过 TPS 团队在内容创作系统中进行更改以更好地适应业务需求来补救。
  • 对于 LLM 问题: 即使有必要的上下文,LLM 也可能产生意外或不正确的信息。这些需要工程干预。

例如,许多汽车经销商使用 Podium 的 AI 员工来回复客户咨询。如果 AI 员工错误地回复汽车经销商不提供换油服务,TPS 团队可以使用 LangSmith 的 Playground 功能来编辑系统输出,并确定在管理界面中进行简单的设置更改是否可以解决问题。

LangSmith Playground 使 Podium 的支持团队能够在无需工程干预的情况下排除代理行为故障

在使用 LangSmith 之前,排除代理行为故障通常需要工程干预。这是一个耗时的过程,需要召集工程师首先审查模型输入和输出,然后重写和重构代码。

通过让他们的 TPS 团队访问 LangSmith 跟踪,Podium 将工程干预的需求减少了 90%,使他们的工程师能够更多地专注于开发而不是支持任务。

总而言之,使用 LangSmith 带来了:

  • 通过使 Podium 的支持团队能够更快、更独立地解决问题,提高了其效率。
  • 提高了支持交互和 Podium 的 AI 驱动服务的客户满意度 (CSAT) 分数。

Podium 的下一步

通过集成 LangSmith 和 LangChain,Podium 在客户体验工具领域获得了竞争优势。LangSmith 增强了可观察性,并简化了大型数据集的管理和模型性能的优化。Podium 团队还在其工作流程中集成了 LangGraph,降低了其代理编排的复杂性,同时为不同的目标客户提供服务,并提高了对其代理对话的可控性。

总而言之,这些产品套件使 Podium 能够专注于其核心价值主张——帮助小型企业更有效地捕获潜在客户——并高效地设计、测试和监控其 LLM 应用程序。


Podium 正在招聘 多个职位,以帮助本地企业取得成功。受到 Podium 故事的启发?您还可以免费试用 LangSmith与 LangSmith 专家交谈 以了解更多信息。

有关测试和评估 LLM 应用程序的更全面的最佳实践,请查看 本指南