langchain_community.document_loaders.docugami.DocugamiLoader

class langchain_community.document_loaders.docugami.DocugamiLoader[源代码]

基类: BaseLoader, BaseModel

已弃用 since 版本 0.0.24: 请使用 docugami_langchain.DocugamiLoader 代替。

Docugami 加载。

要使用,您需要安装 dgml-utils Python 包。

通过解析和验证关键字参数的输入数据创建新模型。

如果输入数据无法解析为有效的模型,将引发 ValidationError。

参数 access_token: 可选[str] = None

要使用的 Docugami API 访问令牌。

参数 api: str = 'https://api.docugami.com/v1preview1'

要使用的 Docugami API 端点。

参数 docset_id: 可选[str] = None

要使用的 Docugami API docset ID。

参数 document_ids: 可选[序列[str]] = None

要使用的 Docugami API 文档 ID。

参数 file_paths: 可选[序列[统一[Path, str]] = None

要使用的本地文件路径。

参数 include_project_metadata_in_doc_metadata: bool = True

如果你想在文档元数据中包含项目元数据,则设置为True。

参数 include_xml_tags: bool = False

设置为True以在块输出文本中包含XML标签。

参数 max_metadata_length: int = 512

返回的元数据文本的最大长度。

参数 max_text_length: int = 4096

返回的块文本的最大长度。

参数 min_text_length: int = 32

为了避免过度划分块,如果块长度小于此阈值,则将块附加到下一个块。

参数 parent_hierarchy_levels: int = 0

设置适当,以使用块层次结构获取上级块。

参数 parent_id_key: str = 'doc_id'

父文档ID的元数据键。

参数 sub_chunk_tables: bool = False

设置为True以返回表中的子块。

参数 whitespace_normalize_text: bool = True

如果你想在原始XML文档中保留全部空白格式,包括缩进,则设置为False。

异步 alazy_load() AsyncIterator[Document]

文档的懒加载器。

返回类型

AsyncIterator[Document]

异步 aload() List[Document]

将数据加载到Document对象中。

返回类型

List[Document]

lazy_load() Iterator[Document]

文档的懒加载器。

返回类型

Iterator[Document]

load() List[Document][source]

加载文档。

返回类型

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并将它们分成多个块。块被返回为Document对象。

不要覆盖此方法。应考虑它已被弃用!

参数

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。

返回

文档列表。

返回类型

List[Document]