langchain_community.document_loaders.pdf.DocumentIntelligenceLoader

class langchain_community.document_loaders.pdf.DocumentIntelligenceLoader(file_path: str, client: Any, model: str = 'prebuilt-document', headers: Optional[Dict] = None)[源代码]

使用 Azure 文档智能加载 PDF

使用 Azure 文档智能(以前称为表单识别器)初始化文件处理的对象。

此构造函数初始化一个用于解析文件的 DocumentIntelligenceParser 对象,该对象使用 Azure 文档智能 API。load 方法为每一页生成一个包含元数据(源块和页面号)的 Document 节点。

参数:

file_pathstr

需要解析的文件的路径。

client: Any

用于对 blob 进行分析的 DocumentAnalysisClient。

modelstr

用于 Azure 表单识别的模型名称或 ID。

示例:

>>> obj = DocumentIntelligenceLoader(
...     file_path="path/to/file",
...     client=client,
...     model="prebuilt-document"
... )

属性

source

方法

__init__(file_path, client[, model, headers])

使用 Azure 文档智能(以前称为表单识别器)初始化文件处理的对象。

alazy_load()

Documents 的懒加载器。

aload()

将数据加载到 Document 对象中。

lazy_load()

懒加载给定路径作为页面。

load()

将给定路径作为页面加载。

load_and_split([text_splitter])

加载文档并将其分割成块。

__init__(file_path: str, client: Any, model: str = 'prebuilt-document', headers: Optional[Dict] = None) None[源代码]

使用 Azure 文档智能(以前称为表单识别器)初始化文件处理的对象。

此构造函数初始化一个用于解析文件的 DocumentIntelligenceParser 对象,该对象使用 Azure 文档智能 API。load 方法为每一页生成一个包含元数据(源块和页面号)的 Document 节点。

参数:

file_pathstr

需要解析的文件的路径。

client: Any

用于对 blob 进行分析的 DocumentAnalysisClient。

modelstr

用于 Azure 表单识别的模型名称或 ID。

示例:

>>> obj = DocumentIntelligenceLoader(
...     file_path="path/to/file",
...     client=client,
...     model="prebuilt-document"
... )
参数
  • file_path (str) –

  • client (Any) –

  • model (str) –

  • headers (Optional[Dict]) –

返回类型

None

async alazy_load() AsyncIterator[Document]

Documents 的懒加载器。

返回类型

AsyncIterator[Document]

async aload() List[Document]

将数据加载到 Document 对象中。

返回类型

List[Document]

lazy_load() Iterator[Document][source]

懒加载给定路径作为页面。

返回类型

Iterator[Document]

load() List[Document][source]

将给定路径作为页面加载。

返回类型

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并将它们分割成块。块会被作为文档返回。

不要重写此方法。应考虑将其弃用!

参数

text_splitter (可选[\TextSplitter\]) – 用于拆分文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。

返回

文档列表。

返回类型

List[Document]

参数
  • file_path (str) –

  • client (Any) –

  • model (str) –

  • headers (Optional[Dict]) –