langchain_community.document_loaders.doc_intelligence
.AzureAIDocumentIntelligenceLoader¶
- class langchain_community.document_loaders.doc_intelligence.AzureAIDocumentIntelligenceLoader(api_endpoint: str, api_key: str, file_path: Optional[str] = None, url_path: Optional[str] = None, api_version: Optional[str] = None, api_model: str = 'prebuilt-layout', mode: str = 'markdown', *, analysis_features: Optional[List[str]] = None)[source]¶
使用 Azure 文档智能加载 PDF 文件。
使用 Azure 文档智能(之前称为表单识别器)初始化文件处理对象。
此构造函数初始化一个 AzureAIDocumentIntelligenceParser 对象,用于使用 Azure 文档智能 API 解析文件。load 方法生成 Document 对象,其内容表示形式由模式参数确定。
参数:¶
- api_endpoint: str
用于 DocumentIntelligenceClient 构造的 API 端点。
- api_key: str
用于 DocumentIntelligenceClient 构造的 API 密钥。
- file_path[可选]str
需要加载的文件的路径。必须指定 file_path 或 url_path。
- url_path[可选]str
需要加载的文件的 URL。必须指定 file_path 或 url_path。
- api_version: [可选]str
DocumentIntelligenceClient 的 API 版本。设置 None 以使用来自 azure-ai-documentintelligence 包的默认值。
- api_model: str
唯一的文档模型名称。默认值为“prebuilt-layout”。注意,覆盖此默认值可能会导致不支持的行为。
- mode: [可选]str
生成的文档的内容表示类型的类型。使用“single”、“page”或“markdown”。默认值为“markdown”。
- analysis_features: [可选][List[str]]
可选分析功能列表,每个功能应以符合 azure-ai-documentintelligence 包中 DocumentAnalysisFeature 枚举的 str 格式传递。默认值为 None。
示例:
>>> obj = AzureAIDocumentIntelligenceLoader( ... file_path="path/to/file", ... api_endpoint="https://endpoint.azure.com", ... api_key="APIKEY", ... api_version="2023-10-31-preview", ... api_model="prebuilt-layout", ... mode="markdown" ... )
方法
__init__
(api_endpoint, api_key, file_path, ...)使用 Azure 文档智能(之前称为表单识别器)初始化文件处理对象。
Documents 的懒加载器。
aload
()将数据加载到 Document 对象中。
以页面方式懒加载数据。
load
()将数据加载到 Document 对象中。
load_and_split
([text_splitter])加载 Documents 并分割成块。
- __init__(api_endpoint: str, api_key: str, file_path: Optional[str] = None, url_path: Optional[str] = None, api_version: Optional[str] = None, api_model: str = 'prebuilt-layout', mode: str = 'markdown', *, analysis_features: Optional[List[str]] = None) None [source]¶
使用 Azure 文档智能(之前称为表单识别器)初始化文件处理对象。
此构造函数初始化一个 AzureAIDocumentIntelligenceParser 对象,用于使用 Azure 文档智能 API 解析文件。load 方法生成 Document 对象,其内容表示形式由模式参数确定。
参数:¶
- api_endpoint: str
用于 DocumentIntelligenceClient 构造的 API 端点。
- api_key: str
用于 DocumentIntelligenceClient 构造的 API 密钥。
- file_path[可选]str
需要加载的文件的路径。必须指定 file_path 或 url_path。
- url_path[可选]str
需要加载的文件的 URL。必须指定 file_path 或 url_path。
- api_version: [可选]str
DocumentIntelligenceClient 的 API 版本。设置 None 以使用来自 azure-ai-documentintelligence 包的默认值。
- api_model: str
唯一的文档模型名称。默认值为“prebuilt-layout”。注意,覆盖此默认值可能会导致不支持的行为。
- mode: [可选]str
生成的文档的内容表示类型的类型。使用“single”、“page”或“markdown”。默认值为“markdown”。
- analysis_features: [可选][List[str]]
可选分析功能列表,每个功能应以符合 azure-ai-documentintelligence 包中 DocumentAnalysisFeature 枚举的 str 格式传递。默认值为 None。
示例:¶
>>> obj = AzureAIDocumentIntelligenceLoader( ... file_path="path/to/file", ... api_endpoint="https://endpoint.azure.com", ... api_key="APIKEY", ... api_version="2023-10-31-preview", ... api_model="prebuilt-layout", ... mode="markdown" ... )
- 参数
api_endpoint (str) –
api_key (str) –
file_path (Optional[str]) –
url_path (Optional[str]) –
api_version (可选[[str]]) –
api_model (str) –
mode (str) –
analysis_features (可选[[str]]) –
- 返回类型
无
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document] ¶
加载文档并将它们拆分为块。块以Document的形式返回。
不要重写此方法。应考虑将其弃用!
- 参数
text_splitter (可选[TextSplitter]) – 使用于文档分段的 TextSplitter 实例。默认为 RecursiveCharacterTextSplitter。
- 返回
文档列表。
- 返回类型
List[Document]
- 参数
api_endpoint (str) –
api_key (str) –
file_path (Optional[str]) –
url_path (Optional[str]) –
api_version (可选[[str]]) –
api_model (str) –
mode (str) –
analysis_features (可选[[str]]) –