langchain_community.document_loaders.parsers.pdf
.PyMuPDFParser¶
- class langchain_community.document_loaders.parsers.pdf.PyMuPDFParser(text_kwargs: Optional[Mapping[str, Any]] = None, extract_images: bool = False)[source]¶
使用 PyMuPDF 解析 PDF。
初始化解析器。
- 参数
text_kwargs (Optional[Mapping[str, Any]]) – 传递给
fitz.Page.get_text()
的关键字参数。extract_images (bool) –
方法
__init__
([text_kwargs, extract_images])初始化解析器。
lazy_parse
(blob)延迟解析 blob。
parse
(blob)急切地将 blob 解析成文档或文档集合。
- __init__(text_kwargs: Optional[Mapping[str, Any]] = None, extract_images: bool = False) None [source]¶
初始化解析器。
- 参数
text_kwargs (Optional[Mapping[str, Any]]) – 传递给
fitz.Page.get_text()
的关键字参数。extract_images (bool) –
- 返回类型
None