langchain_community.document_loaders.docugami
.DocugamiLoader¶
- class langchain_community.document_loaders.docugami.DocugamiLoader[源代码]¶
基类:
BaseLoader
,BaseModel
已弃用 since 版本 0.0.24: 请使用
docugami_langchain.DocugamiLoader
代替。从 Docugami 加载。
要使用,您需要安装
dgml-utils
Python 包。通过解析和验证关键字参数的输入数据创建新模型。
如果输入数据无法解析为有效的模型,将引发 ValidationError。
- 参数 access_token: 可选[str] = None¶
要使用的 Docugami API 访问令牌。
- 参数 api: str = 'https://api.docugami.com/v1preview1'¶
要使用的 Docugami API 端点。
- 参数 docset_id: 可选[str] = None¶
要使用的 Docugami API docset ID。
- 参数 document_ids: 可选[序列[str]] = None¶
要使用的 Docugami API 文档 ID。
- 参数 file_paths: 可选[序列[统一[Path, str]] = None¶
要使用的本地文件路径。
- 参数 include_project_metadata_in_doc_metadata: bool = True¶
如果你想在文档元数据中包含项目元数据,则设置为True。
- 参数 include_xml_tags: bool = False¶
设置为True以在块输出文本中包含XML标签。
- 参数 max_metadata_length: int = 512¶
返回的元数据文本的最大长度。
- 参数 max_text_length: int = 4096¶
返回的块文本的最大长度。
- 参数 min_text_length: int = 32¶
为了避免过度划分块,如果块长度小于此阈值,则将块附加到下一个块。
- 参数 parent_hierarchy_levels: int = 0¶
设置适当,以使用块层次结构获取上级块。
- 参数 parent_id_key: str = 'doc_id'¶
父文档ID的元数据键。
- 参数 sub_chunk_tables: bool = False¶
设置为True以返回表中的子块。
- 参数 whitespace_normalize_text: bool = True¶
如果你想在原始XML文档中保留全部空白格式,包括缩进,则设置为False。
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]¶
加载文档并将它们分成多个块。块被返回为Document对象。
不要覆盖此方法。应考虑它已被弃用!
- 参数
text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。
- 返回
文档列表。
- 返回类型
List[Document]