关于 Podium
Podium 是一个通信平台,帮助小型企业通过电话、短信、电子邮件和社交媒体快速与客户建立联系。小型企业通常与客户有高度互动——例如汽车经销商、珠宝商、自行车商店——但人手不足。Podium 的使命是帮助这些企业及时响应客户咨询,以便将潜在客户转化为销售。
Podium 的数据显示,在 5 分钟内响应客户咨询比在 1 小时内响应的潜在客户转化率高 46%。为了提高潜在客户捕获率,Podium 推出了 AI 员工,这是他们的代理应用程序(也是旗舰产品),用于与本地企业客户互动、安排约会和完成销售。
最初,Podium 使用 LangChain 框架进行单轮互动。随着他们的代理用例在广泛的客户和领域中变得更加复杂,Podium 需要更好地了解他们的 LLM 调用和互动——并转向 LangSmith 进行 LLM 测试和可观察性。
在整个代理开发生命周期中进行测试
对 Podium 的代理开发生命周期而言,建立反馈循环尤其重要。LangSmith 使 Podium 工程师能够测试并持续监控其 AI 员工的性能,并向其数据集添加新的边缘情况,以随着时间的推移来改进和测试模型。
Podium 的测试方法如下:
- 基线数据集整理:创建一个初始数据集来代表代理的基本用例和要求。这将作为测试和开发的基础。
- 基线离线评估:使用整理好的数据集进行初始测试,以评估代理在发布到生产环境之前是否满足基本要求。
- 收集反馈:
- 用户提供的反馈:收集与代理互动的用户的直接输入。
- 在线评估:使用 LLM 实时自我评估和监控响应质量,标记潜在问题以供进一步调查。
- 优化:
- 提示微调:改进用于指导代理响应的提示。
- 检索微调:调整用于生成响应的检索机制。
- 模型微调:使用跟踪数据进一步训练和专门化模型以执行特定任务。
- 持续评估:
- 离线评估:使用回测、成对比较和其他测试方法评估代理的性能并确定优化机会。
- 数据集整理:使用新的场景和边缘情况持续更新和扩展测试数据集,以进行回归测试,确保新的更改不会对现有功能产生负面影响。
使用 LangSmith 整理数据集和微调代理
在使用 LangSmith 之前,很难理解客户咨询以及员工应该采取哪些步骤来解决咨询,因为 Podium 工程师每次互动要进行 20-30 次 LLM 调用。使用 LangSmith,他们可以快速设置并记录和查看跟踪以聚合见解。
Podium 在其 AI 员工中遇到的一个具体挑战是,代理难以识别对话何时自然结束,从而导致尴尬的重复告别。为了解决这个问题,Podium 开始在 LangSmith 中创建一个包含各种对话场景的数据集,包括不同的对话可能结束的方式。
他们的工程团队随后发现,升级到更大的模型是有帮助的,他们将输出整理到更小的模型中(使用称为模型蒸馏的技术)。升级他们的模型非常顺利,因为模型输入和输出自动捕获在 LangSmith 的跟踪中,使团队能够轻松整理数据集。
Podium 工程师还使用客户资料、业务类型和其他对其业务重要的参数来丰富 LangSmith 跟踪数据。他们在 LangSmith 中使用特定标识符对跟踪进行分组,使其能够在数据集整理期间轻松汇总相关跟踪数据。这些丰富的数据使 Podium 能够创建更高质量和更平衡的数据集,这改善了模型微调并帮助他们避免过拟合)。
使用这个平衡的数据集,Podium 团队随后使用 成对评估 将微调模型的结果与原始大型模型的结果进行比较。这种比较使他们能够评估升级后的模型在改进代理识别何时结束对话的能力方面的效果。
微调后,Podium 的新模型在检测代理何时应该结束自然对话方面显示出显著改进。Podium 使用微调模型的 F1 分数提高了 7.5%,从 91.7% 提高到 98.6%,超过了其 98% 的质量阈值。
无需工程干预即可实现 AI 平台的高质量客户支持
在 Podium,工程师必须了解何时与客户的沟通出现问题,以便他们能够持续发布可靠且高质量的产品。
自从 1 月份公开发布其 AI 员工以来,对于 Podium 的技术产品专家 (TPS) 而言,实时解决用户遇到的问题变得至关重要。在 Podium,TPS 团队通常为小型企业客户提供客户支持。但是,确定问题来源(以及如何对其采取措施)具有挑战性。
为 TPS 团队提供对 LangSmith 的访问权限,提供了清晰度,使团队能够快速识别客户报告的问题并确定:“这个问题是由应用程序中的错误、不完整的上下文、不一致的指令还是 LLM 问题引起的?”
对于 Podium 而言,识别客户问题类型会引导他们进行适当的干预
- 对于应用程序中的错误:这些是编排失败,例如集成无法返回数据。这些需要工程干预。
- 对于不完整的上下文:LLM 缺少回答问题所需的信息。TPS 团队可以通过添加其他内容来解决这些问题。
- 对于不一致的指令:指令基于业务需求;需求中的任何问题都可能影响代理的行为。TPS 团队可以通过在内容创作系统中进行更改来更好地满足业务需求,从而解决这些问题。
- 对于 LLM 问题:即使有必要的上下文,LLM 仍可能生成意外或不正确的信息。这些需要工程干预。
例如,许多汽车经销商使用 Podium 的 AI 员工来响应客户咨询。如果 AI 员工错误地回复说汽车经销商不提供换油服务,则 TPS 团队可以使用 LangSmith 的游乐场功能编辑系统输出,并确定管理界面中的简单设置更改是否可以解决问题。
在使用 LangSmith 之前,解决代理行为问题通常需要工程干预。这是一个耗时的过程,需要先让工程师检查模型输入和输出,然后重写和重构代码。
通过为其 TPS 团队提供对 LangSmith 跟踪数据的访问权限,Podium 将工程干预的需要减少了 90%,使他们的工程师能够更多地专注于开发而不是支持任务。
总之,使用 LangSmith 导致:
- 通过使 Podium 的支持团队能够更快、更独立地解决问题,提高了他们的效率。
- 改善了客户满意度 (CSAT) 分数,无论是在支持互动还是在 Podium 的 AI 驱动的服务方面。
Podium 的下一步计划
通过集成 LangSmith 和 LangChain,Podium 在客户体验工具领域获得了竞争优势。LangSmith 增强了可观察性,并简化了大型数据集的管理和优化模型性能。Podium 团队还将 LangGraph 集成到其工作流程中,减少了代理编排的复杂性,同时为不同的目标客户提供服务,同时增强了对其代理对话的可控性。
这些产品套件共同帮助 Podium 专注于其核心价值主张——帮助小型企业更有效地获取潜在客户——以及高效地设计、测试和监控其 LLM 应用程序。
Podium 正在招聘 各种职位,帮助本地企业获胜。Podium 的故事激发了你?你也可以免费试用 LangSmith 或者 与 LangSmith 专家交谈 以了解更多信息。
有关测试和评估 LLM 应用程序的更全面的最佳实践,请查看 本指南。