langchain_community.document_loaders.parsers.pdf.PyMuPDFParser

class langchain_community.document_loaders.parsers.pdf.PyMuPDFParser(text_kwargs: Optional[Mapping[str, Any]] = None, extract_images: bool = False)[source]

使用 PyMuPDF 解析 PDF

初始化解析器。

参数
  • text_kwargs (Optional[Mapping[str, Any]]) – 传递给 fitz.Page.get_text() 的关键字参数。

  • extract_images (bool) –

方法

__init__([text_kwargs, extract_images])

初始化解析器。

lazy_parse(blob)

延迟解析 blob。

parse(blob)

急切地将 blob 解析成文档或文档集合。

__init__(text_kwargs: Optional[Mapping[str, Any]] = None, extract_images: bool = False) None[source]

初始化解析器。

参数
  • text_kwargs (Optional[Mapping[str, Any]]) – 传递给 fitz.Page.get_text() 的关键字参数。

  • extract_images (bool) –

返回类型

None

lazy_parse(blob: Blob) Iterator[Document][source]

延迟解析 blob。

参数

blob (Blob) –

返回类型

Iterator[Document]

parse(blob: Blob) List[Document]

急切地将 blob 解析成文档或文档集合。

这是用于交互式开发环境的便捷方法。

生产应用程序应优先使用 lazy_parse 方法。

子类通常不应该重写此解析方法。

参数

blob (Blob) – Blob 实例

返回

文档列表

返回类型

列表[Document]