langchain_community.document_loaders.parsers.pdf.PDFPlumberParser¶
- class langchain社区.document_loaders.parsers.pdf.PDFPlumberParser(text_kwargs: Optional[Mapping[str, Any]] = None, dedupe: bool = False, extract_images: bool = False)[source]¶
- 使用 PDFPlumber 解析 PDF 文件。 - 初始化解析器。 - 参数
- text_kwargs(《可选》)(Optional)[Mapping[str,Any]] – 将传递给 - pdfplumber.Page.extract_text()的关键字参数
- dedupe(《可选》)(bool) – 如果 dedupe=True,避免重复字符错误。 
- extract_images(《可选》)(bool) – 
 
 - 方法 - __init__([text_kwargs, dedupe, extract_images])- 初始化解析器。 - lazy_parse(blob)- 懒解析 blob。 - parse(blob)- 贪婪地将 blob 解析为文档或多个文档。 - __init__(text_kwargs: Optional[Mapping[str, Any]] = None, dedupe: bool = False, extract_images: bool = False) None[source]¶
- 初始化解析器。 - 参数
- text_kwargs(《可选》)(Optional)[Mapping[str,Any]] – 将传递给 - pdfplumber.Page.extract_text()的关键字参数
- dedupe(《可选》)(bool) – 如果 dedupe=True,避免重复字符错误。 
- extract_images(《可选》)(bool) – 
 
- 返回类型
- None