langchain_community.document_loaders.parsers.generic.MimeTypeBasedParser

class langchain_community.document_loaders.parsers.generic.MimeTypeBasedParser(handlers: Mapping[str, BaseBlobParser], *, fallback_parser: Optional[BaseBlobParser] = None)[source]

使用 mime 类型来解析Blob的解析器。

此解析器适用于简单的管道,其中mime类型足以确定如何解析Blob。

使用时,请根据mime类型配置处理程序,并将它们传递给初始化器。

示例


从 langchain_community.document_loaders.parsers.generic 导入 MimeTypeBasedParser

parser = MimeTypeBasedParser(
handlers={

“application/pdf”: …,

}, fallback_parser=…,

)

定义一个使用mime类型确定如何解析Blob的解析器。

参数
  • handlers (Mapping[str, BaseBlobParser]) - 一个从mime类型到函数的映射,该函数接受一个Blob,解析它,并返回一个文档。

  • fallback_parser (Optional[BaseBlobParser]) - 如果在处理程序中未找到mime类型,则使用备用_parser解析器。如果提供,则使用此解析器解析所有未在处理程序中找到的mime类型的Blob。如果没有提供,则如果处理程序中未找到mime类型,则引发 ValueError。

方法

__init__(handlers, *[, fallback_parser])

定义一个使用mime类型确定如何解析Blob的解析器。

lazy_parse(blob)

从Blob中加载数据。

parse(blob)

贪婪地将Blob解析为文档或文档。

__init__(handlers: Mapping[str, BaseBlobParser], *, fallback_parser: Optional[BaseBlobParser] = None) None[source]

定义一个使用mime类型确定如何解析Blob的解析器。

参数
  • handlers (Mapping[str, BaseBlobParser]) - 一个从mime类型到函数的映射,该函数接受一个Blob,解析它,并返回一个文档。

  • fallback_parser (Optional[BaseBlobParser]) - 如果在处理程序中未找到mime类型,则使用备用_parser解析器。如果提供,则使用此解析器解析所有未在处理程序中找到的mime类型的Blob。如果没有提供,则如果处理程序中未找到mime类型,则引发 ValueError。

返回类型

None

lazy_parse(blob: Blob) Iterator[Document][source]

从Blob中加载数据。

参数

blob (Blob) –

返回类型

Iterator[Document]

parse(blob: Blob) List[Document]

贪婪地将Blob解析为文档或文档。

这是一个适用于交互式开发环境的方法。

生产应用应优先选择 lazy_parse 方法。

子类通常不应重写此解析方法。

参数

blob (Blob) – Blob 实例

返回

文档列表

返回类型

List[Document]