langchain_community.document_loaders.parsers.pdf.PDFPlumberParser

class langchain社区.document_loaders.parsers.pdf.PDFPlumberParser(text_kwargs: Optional[Mapping[str, Any]] = None, dedupe: bool = False, extract_images: bool = False)[source]

使用 PDFPlumber 解析 PDF 文件。

初始化解析器。

参数
  • text_kwargs(《可选》)(Optional)[Mapping[strAny]] – 将传递给 pdfplumber.Page.extract_text() 的关键字参数

  • dedupe(《可选》)(bool) – 如果 dedupe=True,避免重复字符错误。

  • extract_images(《可选》)(bool)

方法

__init__([text_kwargs, dedupe, extract_images])

初始化解析器。

lazy_parse(blob)

懒解析 blob。

parse(blob)

贪婪地将 blob 解析为文档或多个文档。

__init__(text_kwargs: Optional[Mapping[str, Any]] = None, dedupe: bool = False, extract_images: bool = False) None[source]

初始化解析器。

参数
  • text_kwargs(《可选》)(Optional)[Mapping[strAny]] – 将传递给 pdfplumber.Page.extract_text() 的关键字参数

  • dedupe(《可选》)(bool) – 如果 dedupe=True,避免重复字符错误。

  • extract_images(《可选》)(bool)

返回类型

None

lazy_parse(blob: Blob) Iterator[Document][source]

懒解析 blob。

参数

blob (Blob) –

返回类型

Iterator[Document]

parse(blob: Blob) List[Document]

贪婪地将 blob 解析为文档或多个文档。

这是一个用于交互式开发环境的便利方法。

生产应用应优先考虑使用 lazy_parse 方法。

子类通常不应重写此解析方法。

参数

blob (Blob) – Blob 实例

返回

文档列表

返回类型

List[Document]