`langchain_community.document_loaders.pdf`.AmazonTextractPDFLoader¶

class langchain_community.document_loaders.pdf.AmazonTextractPDFLoader(file_path: str, textract_features: Optional[Sequence[str]] = None, client: Optional[Any] = None, credentials_profile_name: Optional[str] = None, region_name: Optional[str] = None, endpoint_url: Optional[str] = None, headers: Optional[Dict] = None, *, linearization_config: Optional[TextLinearizationConfig] = None)[source]¶

从本地文件系统、HTTP或S3加载PDF文件。

为了认证，AWS客户端使用以下方法自动加载凭证：https://boto3.amazonaws.com/v1/documentation/api/latest/guide/credentials.html

如果应使用特定的凭证配置文件，您必须从 ~/.aws/credentials 文件中传递配置文件名称。

请确保使用的凭证/角色具有访问Amazon Textract服务的必要策略。

示例

初始化加载器。

参数

file_path (str) – 输入文件的文件、url或s3路径
textract_features (可选[Sequence[str]]) – 用于提取的功能，每个功能应作为符合枚举*cite>Textract_Features的str传递，见*cite>amazon-textract-caller包
client (可选[Any]) – boto3 textract客户端（可选）
credentials_profile_name（《可选》）（字符串类型） – AWS配置文件名，如果不使用默认配置（《可选》）
region_name（《可选》）（字符串类型） – AWS区域，例如us-east-1（《可选》）
endpoint_url（《可选》）（字符串类型） – Textract服务的端点URL（《可选》）
linearization_config（《可选》）（TextLinearizationConfig实例） – 用于输出线性化的配置，应该是从
textractor
包中获取的TextLinearizationConfig实例
headers（《可选》）（字典类型） –

属性

source

方法

`__init__`(文件路径[, textract_features, ...])	初始化加载器。
`alazy_load`()	Documents的惰性加载器。
`aload`()	将数据加载到Document对象中。
`lazy_load`()	惰性加载文档。
`load`()	将给定路径作为页面加载。
`load_and_split`([text_splitter])	加载Documents并将它们分成块。

__init__(file_path: str, textract_features: Optional[Sequence[str]] = None, client: Optional[Any] = None, credentials_profile_name: Optional[str] = None, region_name: Optional[str] = None, endpoint_url: Optional[str] = None, headers: Optional[Dict] = None, *, linearization_config: Optional[TextLinearizationConfig] = None) → None[来源]¶

初始化加载器。

参数

file_path (str) – 输入文件的文件、url或s3路径
textract_features (可选[Sequence[str]]) – 用于提取的功能，每个功能应作为符合枚举*cite>Textract_Features的str传递，见*cite>amazon-textract-caller包
client (可选[Any]) – boto3 textract客户端（可选）
credentials_profile_name（《可选》）（字符串类型） – AWS配置文件名，如果不使用默认配置（《可选》）
region_name（《可选》）（字符串类型） – AWS区域，例如us-east-1（《可选》）
endpoint_url（《可选》）（字符串类型） – Textract服务的端点URL（《可选》）
linearization_config（《可选》）（TextLinearizationConfig实例） – 用于输出线性化的配置，应该是从
textractor
包中获取的TextLinearizationConfig实例
headers（《可选》）（字典类型） –

返回类型

None

asyncalazy_load() → AsyncIterator[Document]¶

Documents的惰性加载器。

返回类型: AsyncIterator[Document]

async aload() → List[Document]¶

将数据加载到Document对象中。

返回类型: List[Document]

lazy_load() → Iterator[Document][source]¶

惰性加载文档。

返回类型: Iterator[Document]

load() → List[Document][source]¶

将给定路径作为页面加载。

返回类型: List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) → List[Document]¶

加载文档并将其拆分为chunks。chunks以Document形式返回。

不要重写此方法。应考虑将其废弃！

参数: text_splitter (Optional[TextSplitter]) – 用于拆分文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。
返回: 文档列表。
返回类型: List[Document]

使用AmazonTextractPDFLoader的示例¶

langchain_community.document_loaders.pdf.AmazonTextractPDFLoader¶

使用AmazonTextractPDFLoader的示例¶

`langchain_community.document_loaders.pdf`.AmazonTextractPDFLoader¶