LangChain <> Unstructured

LangChain <> Unstructured

1 分钟阅读

LangChain 的核心价值主张之一是将大型语言模型与您自己的文本数据相结合的能力。 有多种(四种!)不同的方法可以做到这一点,并且有许多 不同的应用可以由此实现。

在使用文本数据之前的一个步骤是将您的数据转换为文本形式的能力。由于存在多种不同的格式,这可能相当棘手。

隆重推出... unstructured.io

Unstructured 是一家致力于将自然语言数据从原始状态转化为机器可读状态的公司。他们实现这一目标的主要方式之一是使用一个 开源 Python 包。 该软件包支持多种不同类型的文件扩展名:.txt.docx.pptx.jpg.png.eml.html.pdf 文档。

在试用 Unstructured 后,我们意识到通过与其集成,我们可以轻松开始构建一流的支持,将所有类型的文件加载到 LangChain 可以使用的格式中。 因此,我们创建了文档加载器模块,其中很大一部分由 Unstructured 提供支持。

目前有两个加载器由 Unstructured 提供支持。两者看起来都很简单,但功能非常强大。

第一个是 UnstructuredFileLoader。 它具有简单的界面(您只需传递文件路径),但在底层,Unstructured 正在进行许多智能逻辑来推断其数据类型(PDF、PowerPoint、图像等)并提取文本。

第二个是 DirectoryLoader。 同样,它也具有非常简单的界面:它只需要一个目录路径和一个可选的正则表达式来全局匹配文件。 但在底层,它会循环处理所有文件并使用上述 UnstructuredFileLoader 加载它们。 这使得在一次调用中加载所有类型的文件成为可能。

我们非常兴奋能与 Unstructured 进行集成。 凭借他们专注于将原始数据转换为清晰的文本,无论您的数据采用何种形式,都可以非常轻松地将语言模型与您的数据结合使用。