langchain_community.document_loaders.pdf
.DocumentIntelligenceLoader¶
- class langchain_community.document_loaders.pdf.DocumentIntelligenceLoader(file_path: str, client: Any, model: str = 'prebuilt-document', headers: Optional[Dict] = None)[源代码]¶
使用 Azure 文档智能加载 PDF
使用 Azure 文档智能(以前称为表单识别器)初始化文件处理的对象。
此构造函数初始化一个用于解析文件的 DocumentIntelligenceParser 对象,该对象使用 Azure 文档智能 API。load 方法为每一页生成一个包含元数据(源块和页面号)的 Document 节点。
参数:¶
- file_pathstr
需要解析的文件的路径。
- client: Any
用于对 blob 进行分析的 DocumentAnalysisClient。
- modelstr
用于 Azure 表单识别的模型名称或 ID。
示例:¶
>>> obj = DocumentIntelligenceLoader( ... file_path="path/to/file", ... client=client, ... model="prebuilt-document" ... )
属性
source
方法
__init__
(file_path, client[, model, headers])使用 Azure 文档智能(以前称为表单识别器)初始化文件处理的对象。
Documents 的懒加载器。
aload
()将数据加载到 Document 对象中。
懒加载给定路径作为页面。
load
()将给定路径作为页面加载。
load_and_split
([text_splitter])加载文档并将其分割成块。
- __init__(file_path: str, client: Any, model: str = 'prebuilt-document', headers: Optional[Dict] = None) None [源代码]¶
使用 Azure 文档智能(以前称为表单识别器)初始化文件处理的对象。
此构造函数初始化一个用于解析文件的 DocumentIntelligenceParser 对象,该对象使用 Azure 文档智能 API。load 方法为每一页生成一个包含元数据(源块和页面号)的 Document 节点。
参数:¶
- file_pathstr
需要解析的文件的路径。
- client: Any
用于对 blob 进行分析的 DocumentAnalysisClient。
- modelstr
用于 Azure 表单识别的模型名称或 ID。
示例:
>>> obj = DocumentIntelligenceLoader( ... file_path="path/to/file", ... client=client, ... model="prebuilt-document" ... )
- 参数
file_path (str) –
client (Any) –
model (str) –
headers (Optional[Dict]) –
- 返回类型
None
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document] ¶
加载文档并将它们分割成块。块会被作为文档返回。
不要重写此方法。应考虑将其弃用!
- 参数
text_splitter (可选[\TextSplitter\]) – 用于拆分文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。
- 返回
文档列表。
- 返回类型
List[Document]
- 参数
file_path (str) –
client (Any) –
model (str) –
headers (Optional[Dict]) –