langchain_community.document_loaders.parsers.pdf
.PDFMinerParser¶
- class langchain_community.document_loaders.parsers.pdf.PDFMinerParser(extract_images: bool = False, *, concatenate_pages: bool = True)[source]¶
使用 PDFMiner 解析 PDF 文件。
使用 PDFMiner 初始化解析器。
- 参数
extract_images (bool) – 是否从 PDF 中提取图像。
concatenate_pages (bool) – 如果为 True,将所有 PDF 页面合并成单个文档。否则,每页返回一个文档。
方法
__init__
([extract_images, concatenate_pages])使用 PDFMiner 初始化解析器。
lazy_parse
(blob)惰性解析 blob。
parse
(blob)求值解析 blob 到文档或文档集合。