`langchain_community.document_loaders.parsers.pdf`.PDFMinerParser¶

class langchain_community.document_loaders.parsers.pdf.PDFMinerParser(extract_images: bool = False, *, concatenate_pages: bool = True)[source]¶

使用 PDFMiner 解析 PDF 文件。

使用 PDFMiner 初始化解析器。

参数

extract_images (bool) – 是否从 PDF 中提取图像。
concatenate_pages (bool) – 如果为 True，将所有 PDF 页面合并成单个文档。否则，每页返回一个文档。

方法

`__init__`([extract_images, concatenate_pages])	使用 PDFMiner 初始化解析器。
`lazy_parse`(blob)	惰性解析 blob。
`parse`(blob)	求值解析 blob 到文档或文档集合。

__init__(extract_images: bool = False, *, concatenate_pages: bool = True)[source]¶

使用 PDFMiner 初始化解析器。

参数

extract_images (bool) – 是否从 PDF 中提取图像。
concatenate_pages (bool) – 如果为 True，将所有 PDF 页面合并成单个文档。否则，每页返回一个文档。

lazy_parse(blob: Blob) → Iterator[Document][source]¶

惰性解析 blob。

参数: blob (Blob) –
返回类型: 迭代器[文档]

parse(blob: Blob) → List[Document]¶

求值解析 blob 到文档或文档集合。

这是一个适用于交互式开发环境的方法。

生产应用应优先考虑使用lazy_parse方法。

子类通常不应重写此parse方法。

参数: blob (Blob) – Blob实例
返回: 文档列表
返回类型: 列表[Document]

langchain_community.document_loaders.parsers.pdf.PDFMinerParser¶

`langchain_community.document_loaders.parsers.pdf`.PDFMinerParser¶