`langchain_community.document_loaders.parsers.pdf`.PyMuPDFParser¶

class langchain_community.document_loaders.parsers.pdf.PyMuPDFParser(text_kwargs: Optional[Mapping[str, Any]] = None, extract_images: bool = False)[source]¶

使用 PyMuPDF 解析 PDF。

初始化解析器。

参数

text_kwargs (Optional[Mapping[str, Any]]) – 传递给 fitz.Page.get_text() 的关键字参数。
extract_images (bool) –

方法

`__init__`([text_kwargs, extract_images])	初始化解析器。
`lazy_parse`(blob)	延迟解析 blob。
`parse`(blob)	急切地将 blob 解析成文档或文档集合。

__init__(text_kwargs: Optional[Mapping[str, Any]] = None, extract_images: bool = False) → None[source]¶

初始化解析器。

参数

text_kwargs (Optional[Mapping[str, Any]]) – 传递给 fitz.Page.get_text() 的关键字参数。
extract_images (bool) –

返回类型

None

lazy_parse(blob: Blob) → Iterator[Document][source]¶

延迟解析 blob。

参数: blob (Blob) –
返回类型: Iterator[Document]

parse(blob: Blob) → List[Document]¶

急切地将 blob 解析成文档或文档集合。

这是用于交互式开发环境的便捷方法。

生产应用程序应优先使用 lazy_parse 方法。

子类通常不应该重写此解析方法。

参数: blob (Blob) – Blob 实例
返回: 文档列表
返回类型: 列表[Document]

langchain_community.document_loaders.parsers.pdf.PyMuPDFParser¶

`langchain_community.document_loaders.parsers.pdf`.PyMuPDFParser¶