langchain_community.document_loaders.parsers.pdf.PDFMinerParser

class langchain_community.document_loaders.parsers.pdf.PDFMinerParser(extract_images: bool = False, *, concatenate_pages: bool = True)[source]

使用 PDFMiner 解析 PDF 文件。

使用 PDFMiner 初始化解析器。

参数
  • extract_images (bool) – 是否从 PDF 中提取图像。

  • concatenate_pages (bool) – 如果为 True,将所有 PDF 页面合并成单个文档。否则,每页返回一个文档。

方法

__init__([extract_images, concatenate_pages])

使用 PDFMiner 初始化解析器。

lazy_parse(blob)

惰性解析 blob。

parse(blob)

求值解析 blob 到文档或文档集合。

__init__(extract_images: bool = False, *, concatenate_pages: bool = True)[source]

使用 PDFMiner 初始化解析器。

参数
  • extract_images (bool) – 是否从 PDF 中提取图像。

  • concatenate_pages (bool) – 如果为 True,将所有 PDF 页面合并成单个文档。否则,每页返回一个文档。

lazy_parse(blob: Blob) Iterator[Document][source]

惰性解析 blob。

参数

blob (Blob) –

返回类型

迭代器[文档]

parse(blob: Blob) List[Document]

求值解析 blob 到文档或文档集合。

这是一个适用于交互式开发环境的方法。

生产应用应优先考虑使用lazy_parse方法。

子类通常不应重写此parse方法。

参数

blob (Blob) – Blob实例

返回

文档列表

返回类型

列表[Document]