AI-Powered Medical Knowledge: Revolutionizing Care for Rare Conditions

人工智能驱动的医学知识:革新罕见病护理

3 分钟阅读

[编者按]:这是一篇由 Jack Simon 撰写的客座文章,他最近参加了威廉姆斯学院的黑客松。他构建了一个由 LangChain 驱动的聊天机器人,专注于阑尾癌,旨在让有需要的人更容易获得专业知识。如果您有兴趣为其他罕见病构建聊天机器人,请联系 jms9@williams.edu。

我们强调这一点的原因是,我们认为这是问答系统一个非常棒且未被充分重视的用例。虽然底层技术可能与其他问答应用程序类似,但我们发现这个用例对社会具有特别重大的影响。

上周,我参加了威廉姆斯学院的黑客松,在那里我构建了一个聊天机器人,它改变了我们访问罕见病信息的方式。通过整合文献综述、临床试验数据和学术论文,我创建了一个由 LangChain 驱动的聊天机器人,该机器人提供关于特定罕见病——阑尾癌——的宝贵信息。

0:00
/

虽然这个演示侧重于一种罕见病,但我计划通过添加尽可能多的罕见病信息来扩展聊天机器人的知识库。最终愿景是创建一个人工智能驱动的应用程序,可以作为患者和医疗保健专业人员的可靠信息来源。

罕见病通常使患者感到孤立无援,并且缺乏适当的指导,这主要是因为只有少数专家专门研究这些疾病。此外,这些专业人员通常工作繁忙,几乎没有时间与个别患者互动。可用的在线资源很少,而且大多数都使用医学术语编写,这使得患者难以理解信息。不幸的是,ChatGPT 对罕见病没有帮助;尽管该模型是在海量的网络规模数据集上训练的,但大多数关于不太常见疾病的相关信息要么未被收录,要么过于稀疏,模型无法从中学习太多。因此,ChatGPT 的回答是不完整的,而且常常是明显错误的。

鉴于这些挑战,我使用了一种检索增强生成 (RAG) 方法,利用多种知识来源——模型参数中固有的知识以及上下文段落中包含的信息——来设计一个模型,该模型在需要特定阑尾癌知识的任务上似乎优于 GPT-4,以及 Bio_ClinicalBERT、BioBERT、BlueBERT、PubMedBERT 和 SciBERT。

检索增强生成是一种 NLP 架构,它利用外部文档来补充其知识。RAG 方法通过访问更精细的数据(甚至是在基础模型训练期间不可用的数据)提供了显著优势。这种方法涉及在其执行期间从外部数据集(例如文献综述、临床试验信息和学术论文的语料库)中检索上下文文档。然后,模型将这些上下文文档与原始输入结合起来以生成输出。

尽管现有模型和数据集在提供关于常见疾病的更具体信息方面取得了进展,但它们难以为患者人数少于 1,000 人的病例提供必要的信息。这是因为它们缺乏关于罕见病的临床试验、社区支持论坛和专家从业人员的足够详细的信息。与这些限制相关的挑战源于训练这些模型的高成本以及目前无法大规模收集关于罕见病的全面数据。

通过构建一个可以访问和理解大量医学文献的聊天机器人,我们可以弥合患者与他们所需的知识之间的差距。这种人工智能驱动的方法不仅实用,而且其革新医疗保健的潜力也令人信服。

随着人工智能和像 LangChain 这样的开源大型语言模型框架的进步,现在可以解决围绕罕见病的信息问题。

我构建的聊天机器人可以作为概念验证,证明可以创建这样一个工具来帮助患者和医疗保健专业人员。通过扩展聊天机器人的知识库以涵盖更多罕见病,我计划创建一个平台,该平台可以提供有价值的见解和信息,而不会用复杂的医学术语使患者及其家人感到不知所措。

我相信人工智能驱动的聊天机器人有潜力显著改善医疗保健行业,尤其是在罕见病领域。随着我们继续开发和改进这些人工智能驱动的工具,我们可以创建一个更易于访问和更具包容性的医疗保健系统,从而增强患者和医疗保健专业人员的能力。

如果您有兴趣了解更多关于此项目的信息或参与其中,请通过电子邮件或 Twitter 与我联系。 我们可以共同努力,使关于罕见病的信息更容易获取,并最终改善受这些疾病影响的人们的生活。