langchain_community.document_loaders.parsers.pdf.PyPDFium2Parser

class langchain_community.document_loaders.parsers.pdf.PyPDFium2Parser(extract_images: bool = False)[source]

使用 PyPDFium2 解析 PDF

初始化解析器。

方法

__init__([extract_images])

初始化解析器。

lazy_parse(blob)

懒解析blob。

parse(blob)

急切地将blob解析成文档或多个文档。

参数

extract_images (bool) –

__init__(extract_images: bool = False) None[source]

初始化解析器。

参数

extract_images (bool) –

返回类型

None

lazy_parse(blob: Blob) Iterator[Document][source]

懒解析blob。

参数

blob (Blob) –

返回类型

Document的迭代器

parse(blob: Blob) List[Document]

急切地将blob解析成文档或多个文档。

这是一个交互式开发环境中的便捷方法。

生产应用应优先考虑lazy_parse方法。

子类通常不应覆盖此解析方法。

参数

blob (Blob) – Blob实例

返回

文档列表

返回类型

Document列表