langchain_community.document_loaders.parsers.msword.MsWordParser

class langchain_community.document_loaders.parsers.msword.MsWordParser[source]

从blob中解析Microsoft Word文档。

方法

__init__()

lazy_parse(blob)

将 Microsoft Word 文档解析成文档迭代器。

parse(blob)

贪婪地解析 blob 成文档或文档列表。

__init__()
lazy_parse(blob: Blob) Iterator[Document][source]

将 Microsoft Word 文档解析成文档迭代器。

参数:

blob (Blob) – 要解析的 blob。

返回类型:

Iterator[Document]

返回:Documents 的迭代器。

parse(blob: Blob) List[Document]

贪婪地解析 blob 成文档或文档列表。

这是一个用于交互式开发环境的便利方法。

生产应用应优先选择 lazy_parse 方法。

子类通常不应覆盖此 parse 方法。

参数:

blob (Blob) – Blob 实例

返回:

文档列表

返回类型:

List[Document]