`langchain_community.document_loaders.parsers.vsdx`.VsdxParser¶

class langchain_community.document_loaders.parsers.vsdx.VsdxParser[source]¶

vsdx 文件的解析器。

方法

`__init__`()
`get_pages_content`(zfile, source)	获取 vsdx 文件的页面内容。
`get_relationships`(page, zfile, filelist, ...)	获取页面及其关系的关系等。
`lazy_parse`(blob)	从 .vsdx 文件中检索页面内容并将其插入文档中，每页一个文档。
`parse`(blob)	解析 vsdx 文件。

get_pages_content(zfile: ZipFile, source: str) → List[Tuple[int, str, str]][source]¶

获取 vsdx 文件的页面内容。

zfile¶

zip 格式下的 vsdx 文件。

source¶

vsdx 文件的路径。

返回值

返回包含每一页的页面编号、页面名称和页面内容的元组列表。

返回类型

list[tuple[int, str, str]]

参数

get_relationships(page: str, zfile: ZipFile, filelist: List[str], pagexml_rels: List[dict]) → Set[str][source]¶

递归地获取页面及其所有关联关系之间的关系。页面基于其他页面（例如：背景页面），因此我们需要获取所有关系以获取单个页面的全部内容。

参数

返回类型

Set[str]

lazy_parse(blob: Blob) → Iterator[Document][source]¶

从 .vsdx 文件中检索页面内容并将其插入文档中，每页一个文档。

parse(blob: Blob) → Iterator[Document][source]¶

解析 vsdx 文件。

langchain_community.document_loaders.parsers.vsdx.VsdxParser¶